内 容 全 面 而 深入 ， 既 展示 Mahout 的 强大 功能 ， 又 全 方位 讲解 利用 Mahout 进 行 大 数据 


让。 分 类 、 聚 类 和 预测 分 析 的 各 种 技术 细节 、 方 法 和 最 佳 实践 (人 | 
DE 实战 性 强 , 包 含 丰 富 案例 ， 涉 及 Mahout 开 发 环境 、 序 列 文件 使 用 方式 、 整 合 Mahout 和 
外 部 资源 、 实 现 朴素 贝 叶 斯 分 类 器 、 股 市 预测 、 顶 棚 聚 类 、 频 谱 预测 、K- 均 值 聚 类 等 
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机 器 学 习 是 人 工 智能 领域 里 的 一 个 重要 分 文 ， 是 进行 复杂 数据 分 析 和 构建 智能 系统 的 一 
个 十 分 重要 的 研究 方向 。 互 联网 数据 不 断 地 爆炸 性 增长 标志 着 大 数据 时 代 的 来 临 ， 机 需 学 习 
领域 在 处 理 大 规模 数据 时 将 面临 新 的 挑战 。 研 究 者 除了 从 软件 方面 发 明 新 的 时 间 复 杂 度 更 低 
的 可 扩展 的 算法 之 外 ， 还 应 积极 地 从 硬件 架构 方面 进行 改进 ， 其 中 值得 关注 的 方向 有 两 个 : 
将 并 行 计算 和 分 布 式 计算 引入 机 器 学 习 。 

并 行 计 算 当 前 的 热门 方向 是 GPU 计算 ， 将 传统 上 同时 运行 在 多 台 机 器 上 的 任务 交 给 单 
台 机 器 上 的 图 形 处 理 器 处 理 ， 这 使 得 并 行 计 算 的 费用 大 大 降低 。Shane Cook 撰写 的 《 CUDA 
并 行程 序 设计 : GPU 编程 指南 》? 是 这 方面 的 经 典 参 考 书 。GPU 的 技巧 已 经 大 规模 地 应 
用 到 机 器 学 习 领 域 以 改进 传统 的 算法 ,两 个 有 代表 性 的 GPU 机 器 学 习 库 是 Theano “和 
GPUMLib ©, 

分 布 式 方面 最 有 代表 性 的 工作 是 Apache Hadoop。 它 支持 在 大 型 集群 中 运行 应 用 程序 。 
最 为 重要 的 是 ， 该 架构 是 Java 语言 编写 的 开源 软件 框架 ， 它 实现 了 Google 的 Map/Reduce 
框架 ， 可 供 商业 或 科研 免费 使 用 。Mahonut 库 就 是 在 这 样 的 背景 下 产生 的 。 它 建立 在 Hadoop 
的 基础 上 ， 主 要 用 于 处 理 大 规模 的 机 需 学 习 问 题 ， 其 中 核心 算法 有 聚 类 、 分 类 、 协 同 过 滤 。 
同样 ， 该 库 是 开源 免费 的 ， 且 支持 商业 级 别 的 机 器 学 习 方面 的 应 用 。 

针对 从 事 机 器 学 习 应 用 方面 的 开发 人 员 以 及 机 器 学 习 理 论 研 究 方面 的 科研 人 员 使 用 
Mahout， 本 书 提供 了 非常 有 价值 的 参考 。 作 者 在 将 Mahout 用 于 商业 领域 方面 经 验 丰 富 ， 本 
书 旨 在 降低 Mahout 初学 者 的 入 门 门 槛 。 本 书 特 点 如 下 : 

口 通过 分 析 大 量 的 实例 ， 展 示 了 如 何 更 好 地 使 用 Mahout 算法 ， 主 要 有 分 类 算法 、 聚 类 

算法 以 及 遗传 算法 。 

口 由 浅 入 深 讲解 实例 ， 帮 助 读 者 逐步 掌握 Mahout 的 应 用 方法 。 

口 图 文 并 成 ， 让 读者 及 时 了 解 每 一 步 操作 之 后 的 效果 ， 帮 助 读 者 更 好 地 检验 学 习 进 度 。 

口 写作 方式 独特 ， 通 过 编码 的 方式 帮助 读者 了 解 代码 的 目标 及 含义 ， 避 开 代 码 背 后 复 


杂 的 机 理 。 
日 本 书 已 由 机 械 工业 出 版 社 引进 出 版 ，ISBN: 978-7-111-44861-7。 一 一 编辑 注 
旬 ”参见 http://deeplearning.net/software/theano/。 译 者 注 
多 ”参见 http://gpumlib.sourceforge.net/。 译 者 注 


口 避 开 上 烦琐 的 数学 表述 ， 通 过 具体 而 形象 的 描述 ， 让 读者 直观 了 解 机 器 学 习 技 术 。 

值得 一 提 的 是 ，Mahout 主要 用 在 Linux 平台 上 ， 但 是 对 于 使 用 Windows 系统 的 大 部 分 
读者 来 说 ， 这 并 不 是 一 个 障碍 。 本 书 通过 详尽 的 描述 ， 让 不 熟悉 Linux 的 读者 也 可 以 学 到 
Linux 的 基本 使 用 技巧 。 实 际 上 ， 本 书 中 所 有 的 代码 都 是 在 Windows 系统 下 编写 的 ， 作 者 通 
过 在 Windows 上 安装 Virtual Box 软件 来 使 用 Linux 平台 ， 这 种 方式 为 那些 Windows 系统 下 
的 开发 者 使 用 Mahout 库 提供 了 一 个 良好 的 建议 。 

为 了 方便 读 考 正确、 迅速 地 理解 本 书 ， 译 者 对 本 书 的 一 些 错误 进行 了 修正 ， 并 在 某 些 表 
述 不 太 清 楚 的 地 方 添 加 了 注释 ， 和 希望 对 读者 理解 本 书 内 容 有 所 帮助 。 然 而 ， 不 得 不 承认 ， 尽 
管 译 者 从 事 的 研究 方向 是 机 器 学 习 ， 但 由 于 水 平 有 限 ， 本 书 难免 存在 错误 。 欢 迎 读者 及 时 向 
出 版 社 指出 ， 便 于 再 版 时 予以 更 正 。 

特别 感谢 机 械 工 业 出 版 社 编辑 为 本 书 出 版 所 付出 的 辛勤 劳动 。 

最 后 ， 感 谢 夫 人 靖 芝 以 及 耿 光 刚 博 士 在 文字 校 稿 方面 给 予 的 支持 和 帮助 。 


新 小 波 


了 路 
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在 最 近 的 10 年 ， 社 会 化 网 络 的 出 现 和 移动 设备 的 发 明 极 大 地 改变 了 我 们 处 理 数据 的 方式 。 

为 了 帮助 你 了 解 究 竟 发 生 了 什么 ,我 们 不 得 不 提 到 在 2012 通过 Qmee 做 的 一 项 研究 : 
在 60 秒 里 展示 互联 网 上 经 常 发 生 的 事情 。 结 果 参 考 http:/blog.qmee.com/qmee-online-in-60- 
seconds/， 它 告诉 我 们 在 过 去 的 每 一 秒 里 Twitter 收 到 278 000 条 推 文 (tweet)，Facebook 收 到 
41 000 条 post，YouTube 已 上 传 了 时 长 达 72 小 时 的 视频 。 这 些 算是 很 大 的 网 站 了 ， 但 是 即 
使 是 具有 国家 或 国际 背景 的 网 站 ， 因 收集 网 站 的 日 志 而 拥有 上 百 万 的 记录 也 是 很 平常 的 。 

为 管理 如 此 海量 的 信息 ， 需 要 编写 新 框架 来 实现 不 同 机 器 之 间 的 计算 任务 共享 。Hadoop 
是 Apache 编写 的 算法 解决 方案 ， 它 可 以 将 计算 任务 分 配 到 不 同 的 硬件 架构 上 运行 。 

当 你 需要 分 析 上 亿 条 数据 记录 时 ， 在 大 多 数 情况 下 ， 你 的 目的 是 通过 信息 提取 来 发 现 数 
据 之 间 的 新 关系 。 传 统 上 ， 数 据 挖 气 算 法 就 是 为 这 个 目的 发 展 起 来 的 。 然 而 ， 当 处 理 非常 大 
的 数据 集 时 ， 无 法 在 一 个 合理 的 时 间 里 实现 数据 挖掘 任务 。Mahout 是 一 个 数据 挖掘 框架 ， 可 
以 和 Hadoop 一 起 应 用 数据 挖掘 算法 处 理 大 规模 数据 集 上 的 数据 挖掘 任务 ， 它 使 用 了 封装 在 
Hadoop 里 面 的 MapReduce 例 程 。 所 以 ，Mahout 通过 Hadoop 架构 的 这 个 底层 接口 为 编程 人 
员 进 行 数据 挖掘 任务 提供 了 一 个 易 用 的 框架 。 

本 书 将 通过 一 些 实例 向 你 展示 怎么 使 用 Mahout 进行 数据 挖 气 ， 以 及 数据 挖掘 的 不 同方 
法 。 最 关键 的 是 ， 使 用 一 种 简洁 通俗 的 方法 向 你 展示 使 用 Mahout 对 数据 进行 分 类 、 聚 类 和 
预测 的 方式 。 本 书 是 面向 编程 的 ， 所 以 我 们 并 不 想 在 步骤 中 过 多 地 引入 其 理论 背景 ， 但 是 我 
们 会 给 有 能 力 的 读者 一 些 参考 文献 以 进行 更 深 一 步 研究 。 当 写 这 本 书 时 ， 我 们 面临 的 主要 挑 
战 是 : 
口 根据 我 的 经 验 ，Mahout 有 着 非常 高 的 学 习 曲 线 ， 主 要 原因 是 算法 使 用 了 MapReduce 
方法 ， 该 方法 不 同 于 序列 方法 。 
口 数据 挖掘 算法 本 身 就 不 太 容 易 理解 ， 它 们 在 某 些 情况 下 需要 一 些 特 殊 的 技能 ， 而 开 

发 人 员 不 一 定 具备 这 样 的 技能 。 

于 是 我 们 尽力 使 用 一 种 面向 源码 的 方式 让 读者 能 抓 住 每 一 段 代 码 的 含义 和 目的 ， 但 是 又 
不 需要 深入 理解 其 背后 的 实现 机 制 。 

这 种 方法 的 效果 由 你 来 判断 ， 而 且 我 们 希望 你 在 阅读 的 时 候 能 够 发 现 一 些 乐趣 ， 就 像 我 


VI 
们 在 写作 的 时 候 获得 的 一 样 。 


本 书 的 组 织 


第 1 章 描述 如 何在 单 台 机 器 上 创建 一 个 完整 的 开发 环境 。 通 过 编写 一 个 推荐 算法 使 得 数 
据 挖掘 操作 的 所 有 代码 片段 均 以 Hadoop 的 方式 呈现 (包括 引入 的 JAR 库 等 )， 这 非常 清晰 地 
展现 在 没有 任何 背景 的 读者 面前 。 

第 2 章 介 绍 序 列 文件 。 当 使 用 Hadoop 和 Mahout 时 ， 序 列 文件 是 个 比较 关键 的 概念 。 在 
多 数 情况 下 ，Mahout 并 不 直接 操作 要 使 用 的 数据 集 ， 所 以 在 没有 编码 算法 之 前 ， 我 们 需要 描 
述 如 何 对 待 这 些 特别 的 文件 。 

第 3 章 详 细 介绍 使 用 命令 行 工具 和 代码 从 RDBMS 中 读 写 数据 。 

第 4 章 详细 介绍 如 何 使 用 朴素 贝 叶 斯 分 类 器 分 类 文本 文档 。 全 面 地 描述 如 何 将 文档 单词 
转化 为 包括 单词 出 现 次 数 的 向 量 ， 并 展示 如 何 使 用 Java 编写 朴素 贝 叶 斯 分 类 器 和 互补 朴素 贝 
叶 斯 分 类 器 。 

第 5 章 主要 涉及 两 个 算法 : logistic 回归 和 随机 森林 (Random Forests)。 它 们 展示 了 通过 
分 析 某 些 普 通 数据 就 可 能 预测 其 未 来 值 。 

第 6 章 描 述 Mahout 框架 中 最 常用 的 算法 ， 其 中 包括 大 数据 的 聚 类 分 析 和 分 类 任务 。 在 
这 一 章 ， 通 过 一 些 实例 介绍 使 用 顶棚 聚 类 围绕 聚 类 中 心 聚合 数据 向 量 。 

第 7 章 继续 介绍 Mahout 中 的 聚 类 分 析 算 法 。 该 章 描 述 了 频谱 聚 类 的 使 用 方式 ， 它 在 对 
图 形式 的 链接 信息 进行 分 类 时 是 非常 有 效 的 。 

第 8 童 描述 了 使 用 K- 均值 聚 类 (包括 序列 方式 和 MapReduce 方式 ) 对 主题 中 的 文本 文 
档 进 行 分 类 。 我 们 将 通过 命令 行 方式 和 Java 编码 的 方式 解释 如 何 使 用 该 算法 。 

第 9 章 介绍 一 个 比较 老 的 ， 称 为 频繁 模式 挖掘 ( Frequent Pattern Mining) 的 算法 。 该 算 
法 通过 过 去 顾客 的 购买 情况 来 预测 哪些 东西 应 该 放 在 一 块 出 售 。Latent Dirichlet 算法 将 用 于 
文本 分 类 。 

第 10 章 描述 了 如 何在 Mahout 中 使 用 遗传 算法 解决 旅行 商 (Travelling Salesman) 问题 和 
提取 规则 。 我 们 将 会 看 到 如 何 使 用 Mahout 的 不 同 版 本 来 使 用 这 些 算法 。 


阅读 本 书 你 需要 什么 


在 第 1 章 中 ， 我 们 将 介绍 本 书 需 要 的 所 有 软件 。 本 书 中 所 有 的 例子 均 在 Ubuntu 10.04 简 
易 发 行 版 和 和 Oracle 公司 的 Virtual Box 平台 上 编程 实现 。 
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本 书 的 读者 

本 书 对 希望 以 一 种 新 颖 、 快 速 的 方式 来 入门 Mahout 的 开发 人 员 是 比较 理想 的 。 阅 读本 
书 不 需要 了 解 Mahout， 有 经 验 的 开发 人 员 或 系统 管理 人 员 也 可 以 从 本 书 中 受益 。 
下 载 示例 代码 


你 可 以 通过 你 的 账号 (在 网 站 http:/www.packtpub.com) 下 载 在 Packt 上 购买 的 书籍 的 所 
有 示例 代码 。 如 果 你 在 别 的 地 方 购买 本 书 ， 可 以 访问 http://www.packtpub.conysupport 并 注 
册 ， 我 们 将 会 通过 电子 邮件 直接 把 文件 发 送 给 你 。 


勘误 表 

尽管 我 们 尽 了 最 大 的 努力 来 确保 内 容 的 准确 性 ， 但 错误 在 所 难免 。 如 果 你 在 书 中 找到 错 
误 ， 无论 在 文中 或 代码 中 ， 我 们 会 非常 感谢 你 给 我 们 报告 了 这 些 错误 。 你 这 么 做 ， 可 以 避 
免 其 他 读者 遭受 困扰 ， 并 且 我 们 将 在 随后 的 再 版 中 改进 。 如 果 你 发 现任 何 错误 ， 请 通过 访 
问 http://www.packtpub.com/submit-errata 来 报告 它们 : 选择 你 所 购买 的 书 名 ， 点 击 “errata 
submission form” 和 链接 ， 输 入 错误 的 详细 细节 。 一旦 你 报告 的 错误 得 到 确认 ， 你 的 提交 将 会 
被 接受 ， 并且 勘 误 表 将 会 在 我 们 的 网 站 上 更 新 或 者 加 入 已 经 存在 的 勘误 列表 中 。 通 过 网 址 
http:Wwww.packtpub.com/support 选择 书号 ， 你 可 以 看 到 现 有 的 勘误 条 目 。 


关于 评阅 者 


Nicolas Gapaillard 是 Java 架构 方面 的 一 位 热情 的 自由 拟稿 人 ， 他 了 解 Java 和 开源 领域 
中 的 创新 项 目 。 

他 曾 在 开源 软件 公司 Linagora ( http://www.linagora.com ) 的 证 券 部 门 从 事 开 发 工作 ， 
由 此 开始 他 的 职业 生源。 该 部 门 则 在 开发 一 个 围绕 交易 安全 的 开源 软件 ， 包 括 证书 管 理 、 
密 钥 文 档 的 存储 和 认证 机 制 。 

之 后 ， 他 在 Smile 开源 软件 整合 项 目 中 任职 Java 技术 方面 的 开发 人 员 、 培 训 人 员 和 技术 
领导 者 。 

有 了 上 述 从 业经 历 之 后 ， 他 决定 创办 自己 的 公司 (名 为 BIGAPhttp:/bigap. 位 )， 该 公司 主 
要 做 自由 撰 稿 业 务 ， 这 使 得 他 有 更 多 的 时 间 来 学 习 和 研究 创新 项 目 。 

其 中 有 一 个 业务 是 为 名 为 Onecub 的 法 国 公司 实现 根据 顾客 的 类 别 自动 分 类 电子 商务 方 
面 的 电子 邮件 。 当 时 ,仅仅 Mahout 可 以 提供 “ 拿 来 即 用 ”的 算法 来 解决 这 些 问题 。 从 那 以 
后 ，Nicolas 开始 深入 地 研究 Mahout 项 目 和 数据 挖掘 领域 。 

某 一 天 ，Packt 出 版 社 看 到 他 撰写 的 文章 ( http://nigap.blogspot. 人 rt) 并 邀请 他 为 该 书 撰写 
评论 ， 他 非常 愉快 地 接受 了 这 项 任务 。 


我 非常 感谢 本 书 作者 为 保证 书 的 质量 而 做 出 的 努力 ， 我 也 感谢 Packt 出 版 社 ， 他 们 信任 
我 ， 让 我 撰写 该 书 的 评论 ， 他 们 非常 仔细 地 管理 整个 流程 ， 并 且 允 许 我 评论 该 书 的 修订 。 我 
还 想 感 谢 其 他 的 评论 人 为 本 书 的 修订 和 内 容 的 质量 而 提供 的 帮助 ， 感 谢 我 的 妻子 让 我 有 自由 
的 时 间 来 写 这 些 评论 。 


Vignesh Prajapati 是 Pingax 公司 大 数据 方面 的 科学 家 。 他 热爱 开源 技术 (比如 R 语 
言 、Hadoop、MongoDB 和 Java 语言 )， 主 要 工作 就 是 使 用 机 器 学 习 、R 语言 、 RHadoop 和 
MongoDB 进行 数据 分 析 。 他 在 多 个 算法 方面 是 专家 ， 例 如 数据 ETL 、 电 子 商务 、Google 历 
史 分 析 和 其 他 数据 集 的 生成 推荐 、 分 析 和 行为 定位 等 。 他 也 撰写 了 几 篇 文章 来 阐述 使 用 R 语 
言 、Hadoop 和 机 带 学 习 实 现 高 效 的 智能 大 数据 应 用 。 他 的 联系 方式 是 vignesh2066@gmail. 
com 或 http://in.linkedin.com/in/vigneshprajapati/。 

除了 本 书 以 外 ，Packt 还 有 两 本 书 与 他 有 关 : 他 是 《Big Data Analytics with R and 


Hadoop 》 一 书 的 作者 (Packt 出 版 ，https:/www.packtpub.com/big-data-analytics-with-r-and- 
hadoop/book)， 他 也 为 《 Data Manipulation with R 》 一 书 (作者 : DeMystified，Packt 出 版 ) 
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第 1 音 Mahout 入门 


Mahout 是 一 个 机 器 学 习 Java 类 库 的 集合 ， 用 于 完成 各 种 各 样 的 任务 ， 如 分 类 、 评 价 性 
的 聚 类 和 模式 挖掘 等 。 

当前 存在 很 多 比较 好 的 框架 ,它们 对 用 户 友好 并 且 配 置 了 更 多 的 算法 来 完成 这 些 任务 。 
比如 ,，R 社区 比 从 前 更 加 庞大 ， 而 在 Java 世界 里 ， 可 用 的 RapidMiner 和 Weka 库 已 经 存在 
了 好 多 年 。 

为 什么 我 们 要 用 Mahout 来 代替 前 面 提 到 的 那些 框架 呢 ? 真正 原因 在 于 前 面 提 到 的 那些 
框架 并 不 是 为 大 规模 数据 集 设计 的 。 当 我 们 提 到 大 规模 数据 集中 所 谓 的 数据 集 时 ， 无 论 是 哪 
种 形式 ， 它 的 记录 都 是 上 亿 级 别 的 。 
事实 上 Mahout 的 威力 在 于 这 些 算法 可 以 用 于 Hadoop 环境 。Hadoop 是 一 个 允许 算法 并 
行 运行 在 多 个 机 器 上 ( 称 为 节点 ) 的 一 般 框 架 ， 它 使 用 了 分 布 式 计算 的 框架 。 

Hadoop 背后 的 核心 理念 不 是 使 用 单个 的 主 节 点 来 处 理 大 数据 的 计算 和 存储 任务 ， 而 是 
使 用 分 治 法 将 整个 任务 分 成 很 多 子 任务 。 当 所 有 的 单个 任务 完成 后 ( 即 每 个 任务 完成 计算 并 
生成 一 个 输出 )，Hadoop 将 负责 管理 和 重组 所 有 的 单个 子 集 。 在 这 种 情况 下 ， 即 使 每 个 阶段 
并 不 是 很 强大 ， 通 过 将 繁重 的 计算 任务 分 给 许多 单个 计算 节点 机 费 来 得 到 最 后 的 结果 仍然 
是 可 行 的 。 这 一 理念 和 第 一 个 分 布 式 计算 的 例子 ( SETI@Home SN Great Internet Mersenne 
Prime Search ( GIMPS)“) 非常 接近 ， 不 同 的 是 ， 我 们 实现 的 是 分 布 式 的 机 器 学 习 算 法 。 在 
本 书 中 ,我们 将 在 各 种 各 样 实例 的 基础 上 以 一 种 更 好 的 方式 来 涵盖 细节 问题 。 


秘 般 1 安装 Java 和 Hadoop 


本 童 的 第 一 部 分 主要 介绍 在 单 台 机 右上 设置 工作 环境 ， 帮 助 读者 以 一 种 最 容易 和 最 快速 
的 方式 来 编程 。 

就 像 之 前 说 的 那样 ， 我 们 关注 引导 编程 人 员 在 开发 机 右上 快速 测试 他 们 的 Mahout。 我 们 
不 会 过 多 地 说 明 在 一 个 产品 式 的 Hadoop 聚 类 上 如 何 配置 代码 ， 因 为 那 已 经 超出 了 本 书 的 范 
围 ， 需 要 更 为 详细 和 复杂 的 方法 和 配置 。 

我 们 仅仅 需要 让 读 考 知 道 所 有 的 工作 都 使 用 单个 节点 聚 类 ， 所 以 即使 在 不 同 的 方法 
中 ， 我 们 描述 算法 运行 在 多 个 聚 类 机 器 上 所 需要 的 参数 时 也 是 如 此 ， 在 本 书 例子 中 ， 内 部 


”参见 http://setiathome.berkeley.edu/。 
四 ”参见 http:Wwww.mersenne.org/。 
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计算 经 常 被 迫使 用 单个 聚 类 。 对 于 如 何 配置 Hadoop 聚 类 ， 请 读者 参考 另 一 本 书 《 Hadoop 
Operations and Cluster Management Cookbook 》(Packt 出 版 ，Shumin Guo 著 )。 

使 用 cygwin 环境 ， 在 Windows 系统 上 也 可 以 测试 Hadoop 和 Mahout 代码 ， 但 是 我 们 并 
没有 包含 这 些 内容 ， 请 读者 参考 Apache 的 相关 wiki: http://hadoop.apache.org。 

考虑 到 Hadoop 可 以 运行 在 云 环境 中 ， 以 测试 为 目的 ， 有 能 力 的 读者 可 以 使 用 Amazon 
EC2 来 设置 单 节点 的 Hadoop 聚 类 。 相 关 的 配置 资料 可 以 在 Amazon EC2 wiki 上 找到 。 

当 我 们 写本 书 的 时 候 ， 微 软 发 布 了 一 个 能 运行 在 Azure Cloud 上 的 Hadoop 实现 ， 但 是 我 
们 没有 测试 它 。 你 可 以 在 网 络 上 找到 相关 资料 。 

从 Cloudera 网 站 下载 Hadoop (一 个 完全 的 安装 版 Hadoop 系统 的 64 位 Virtual Box) 也 


是 可 行 的 。 
不 得 不 说 ， 从 头 开始 配置 一 个 极 小 的 系统 将 极 大 地 帮助 你 理解 Hadoop 和 Mahout 是 如 何 
交互 的 。 


有 了 时， 虽然 不 配置 Hadoop，Mahout 也 可 以 用 来 测试 代码 。 然 而 ,事实 上 ， 因 为 只 有 利 
用 Hadoop 的 性 能 和 可 扩展 性 Mahout 才能 发 挥 优势 ， 我 们 将 很 少 介 绍 这 种 方法 。 

因此 ， 我 们 将 Hadoop 和 Mahout 安装 到 Ubuntu 系统 的 32 位 机 器 上 。 为 了 创建 快速 的 可 
复制 的 开发 环境 ， 我 们 将 使 用 虚拟 机 方式 。 

我 们 更 喜欢 使 用 VirtualBox 机 器 模拟 器 〈 开 源 软件 )。 如 果 对 VirtualBox 不 熟悉 ， 请 参考 
书籍 《VirtualBox 3.1: Beginner's Guide 》(Packt 出 版 ) 9 。 

在 本 书 中 ， 因 为 我 们 使 用 了 Windows 7 专业 版 上 的 VirtualBox 虚拟 机 并 想 从 客户 机 上 
获得 一 个 快速 的 应 答 ， 我 们 决定 使 用 Ubuntu 桌面 版 (10.04, 32 位 )。 考 虑 到 主要 使 用 基于 
Debian 的 命令 ， 因 此 在 基于 Debian 的 分 布 上 复制 Ubuntu 是 可 行 的 。 

Hadoop 和 Mahout 不 应 该 在 根 用 户 下 运行 ”， 所 以 我 们 创建 了 一 个 叫 hadoop-mahout 的 
用 户 来 安装 和 做 每 件 事情 。 

我 们 的 安装 策略 是 : 

口 安装 JDK 1.7u9 

口 安装 Maven 3.0.4 

口 安装 Hadoop 0.23.5 

口 安装 NetBeans 7.2.1 

口 编译 Mahout 0.8-SNAPSHOT 源 代码 

读者 也 可 以 下 载 最 新 的 Mahout 二 进 制版 本 并 包含 必要 的 jar 到 样 例 工程 中 ,但 是 使 用 


参见 http://wiki.apache.org/hadoop/AmazonEC2。 
参见 http://www.cloudera.com。 
参见 http:Wwww.packtpub.comy/virtualbox-3-1-beginners-guide/book。 


即 登 录 时 以 根 用 户 进 入 ， 但 执行 时 不 以 根 用 户 身 份 执行 。 译 者 注 
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Maven 可 以 帮助 读者 更 好 地 控制 Mahout 的 发 布 和 JAR 包 的 版 本 。 在 这 种 情况 下 ， 所 有 的 
Mahout 包 依 赖 通过 手工 下 载 ， 这 将 是 一 个 非常 费时 和 乏味 的 工作 。 

Maven 也 用 于 测试 代码 。 我 们 将 不 会 提 及 Maven 所 拥有 的 一 些 特征 ， 读 者 可 以 参考 
Packt 书籍 9 。 

在 进入 编程 步骤 之 前 ， 需 要 安装 所 有 的 一 切 ， 首 先 从 下 载 开始 。 

本 章 简要 介绍 如 何 创建 一 个 单 节点 的 Hadoop 开发 环境 。 


注意 ”建议 读者 仔细 地 读 下 一 个 秘笈 ， 因 为 书 中 所 有 的 其 他 秘笈 都 依赖 于 正确 编译 和 运行 的 平台 。 


准备 工作 


首先 下 载 JDK，Hadoop 和 Mahout 需要 JDK 1.6 版 本 或 更 高 版 本 ， 本 书 使 用 的 是 JDK 
1.7u9， 可 以 从 Oracle 网 站 下 载 。 

Hadoop 也 能 够 在 虚拟 机 上 的 OpenJDK 中 运行 ， 但 是 我 们 更 喜欢 使 用 Oracle 的 JDK。 

可 以 从 Apache 的 某 个 镜像 网 站 下 载 Maven 3.0.4， 下 载 终端 命令 如 下 : 


wget http://it.apache.contactlab.it/maven/maven-3/3.0.4/binaries/apache- 
maven-3.0.4-bin.tar.gz 


然后 ， 可 以 通过 类 似 的 方式 下 载 Hadoop 0.23.6: 


wget http://apache.panu.it/hadoop/common/hadoop-0.23.6/hadoop-0.23.5.tar. gz 


现在 将 下 载 的 所 有 文件 放 到 一 个 文件 目录 下 ， 例 如 : /home/hadoopmahout/Downloads， 
你 会 看 到 下 图 所 示 的 内 容 。 


OO@ Downloads - File Browser 


File Edit View Go Bookmarks Help 
起 Bak Fo 会 外 而 & im%Q 


apache-maven-3.0. hadoop-0.23.5.targz jdk-7u9-linux-i586. 
4-bin.tar.gz targz 


旬 ”参见 http:/www.packtpub.com/apache-maven-3-0-cookbook/book。 
日 参 


参 几 http://www.oracle.com/technetwork/java/javase/downloads。 


4 %% 第 1 章 Mahout 入 门 


如 何 实 现 它 


接 下 来 将 完成 Java、Maven 和 Hadoop 的 环境 设置 。 这 三 个 框架 的 步骤 几乎 相同 : 
口 解压 缩 
口 添加 正确 的 平台 变量 
口 测试 安装 的 正确 性 

现在 ， 我 们 将 解压 缩 每 个 文档 并 将 压缩 结果 从 /home/hadoop-mahout/Downloads 目录 移 
到 /home/hadoop-mahout/ 目录 。 这 是 因为 目录 名 称 中 的 Downloads 意味 着 它 可 以 被 别 的 软件 
使 用 或 清除 掉 ， 而 我 们 想 保存 我 们 的 安装 : 

1. 在 终端 窗口 输入 下 列 命令 进入 Downloads 目录 : 

cd /home/hadoop-mahout/Downloads 

2. 输入 下 列 命 令 : 


tar -C /home/hadoop-mahout/ -xvzf jdk-7u9-linux-i586.tar.gz 


tar -C /home/hadoop-mahout/ -xvzf apache-maven-3.0.4-bin.tar.gz 


tar -C /home/hadoop-mahout/ -xvzf hadoop-0.23.5.tar.gz 


3. 这 将 解压 缩 三 个 文档 到 目录 /home/hadoop-mahout/。hadoop-mahout 目录 看 起 来 如 下 
图 所 示 。 


加 
| 
| 


< ET TS 本 


e Edit View Go Bookmarks Help 


多 Back 了 FoOrward 了 会 b> 多 男 Q 100% @ 了 
| 国 
| 国生 一 国 加 


apache-maven-3.0.4 Desktop Documents 


Downloads hadoop-0.23.5 jdk1.7.0 09 


Music Pictures Public 


4. 为 所 需要 的 一 切 创建 环境 变量 。 这 是 因为 Maven、Hadoop 和 Mahonut 需要 一 个 配置 变 
量 JAVA_HOME。 


5. 我 们 也 需要 Hadoop 能 够 从 每 个 终端 来 访问 mvn 命令 。 为 了 让 系统 每 次 重启 时 都 能 使 
用 这 些 变量 ， 我 们 不 妨 把 它们 保存 到 文件 .bashrc 中 。 对 单 用 户 设置 变量 而 言 ， 这 在 Ubuntu 
上 是 一 种 容易 的 方式 。 

6. 为 了 完成 所 有 这 些 设置 ， 你 需 


口 用 你 喜欢 的 文本 编辑 器 打开 文件 .bashrc， 它 位 于 目录 /home/hadoopmahout/folder 下 。 
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上 AN 二 
口 将 下 列 代码 输 到 文件 末尾 : 
export JAVA HOME=/home/hadoop-mahout/jdk1l.7.0 09 
export HADOOP HOME=/home/hadoop-mahout/hadoop-0.23.5 
export MAVEN HOME=/home/hadoop-mahout/apache-maven-3.0.4 


export PATH=$PATH:$JAVA HOME/bin:S$MAVEN HOME/bin:SHRDOOP 
HOME/bin 


口 保存 文件 并 返回 控制 台 。 

7. 前 三 行 创建 了 用 户 变 量 : JAVA HOME、MAVEN HOME 和 HADOOP HOME。 
8. 最 后 一 行将 变量 连同 它们 相对 的 bin 位 置 加 入 PATH 变量 中 。 

9. 输入 下 列 命令 测试 JDK 和 Maven: 


java -version 


mvn -version 


你 将 会 得 到 如 下 图 所 示 的 输出 。 


ild 23.5-b82, ed mode) 
lahout-laptop:~$ 四 


"i386" 


10. 为 了 测试 Hadoop 是 否 正确 安装 ， 我们 将 计算 Hadoop 发 布 的 一 个 例子 ， 它 在 一 个 单 
机 上 使 用 10 个 MapReduce 工作 集 来 计算 圆周 率 pi 的 值 。 
11. 在 HADOOP HOME 下 输入 下 列 命令 : 


hadoop jar /home/hadoop-mahout/hadoop-0.23.5/share/hadoop/ 
mapreduce/hadoop-mapreduce-examples-0.23.5.jar pi 10 100 


12. 在 终端 你 将 会 看 到 10 个 MapReduce 工作 集 的 工作 情况 : 


Job Finished in 8.983 seconds 
Estimated value of Pi is 3.14800000000000000000 


到 目前 为 止 ， 我 们 已 经 成 功 地 设置 了 一 个 单 节 点 的 Hadoop 用 于 测试 。 我 们 现在 开始 下 
载 并 使 用 SVN (Subversion) 和 Maven 来 编译 Mahout 源 代 码 。 
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秘 艇 2 设置 Maven 和 NetBeans 开发 环境 


这 一 节 的 内 容 比 较 基础 ， 请 仔细 跟着 做 一 遍 ， 


因为 书 中 其 他 的 设置 依赖 于 Maven 和 


NetBeans 的 成 功 安装 。 如 果 你 觉得 使 用 Eclipse 比较 和 舒服， 建议 你 读 读 网 站 http:/maven. 
apache.org/eclipse-plugin.html 提供 的 帮助 手册 。 然 而 ， 因 为 整 本 书 都 是 基于 NetBeans 作为 
IDE (可 视 化 开发 环境 )， 一 旦 使 用 Eplipse， 每 个 配置 都 要 重新 检查 。 


准备 工作 
现在 我 们 已 经 准备 好 进行 最 后 的 部 分 了 
出 于 编程 的 目的 ， 我 们 决定 使 用 NetBeans 作为 I 


使 用 NetBeans 安装 和 配置 Mahout。 


DE 代替 其 他 的 IDE (比如 Eclipse)， 


为 当 写 作 本 书 时 ，Eclipse 的 最 新 版 本 并 不 完全 和 Maven 3.0.4 的 规范 兼容 。 使 用 Eclipse 或 


IntelliJ 也 行 ， 但 是 配置 比 NetBeans 要 麻烦 些 。 如 果 


http://maven.apache.org/eclipse-plugin.html。 


想 在 Elipse 上 使 用 Maven， 可 以 参考 : 


为 了 得 到 最 新 的 发 行 版 本 ， 可 以 使 用 SVN 编译 最 新 的 Mahout 镜像 ， 若 有 必要 也 可 以 下 


载 二 进 制 文件 来 链接 JAR 包 。 


可 以 通过 NetBeans 编译 源 文件 ， 所 以 在 进行 下 1 


和 的 步 台 0 之 前 ， 需 要 从 NetBeans 的 网 站 9 


上 下 载 文件 netbeans-7.2.1-ml-javase-linux.sh。 
下 载 之 后 ，Downloads 目录 如 下 图 所 示 。 


= IT 上 EE 人 了 | [二 :1 
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iv 会 因 G 
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二 We apache-maven-3.0. hadoop-0.23.5.targz jdk-7u9-linux-i586. 
苑 Network 4-bin.tar.gz targz 

后 VBO..， 全 二 

刀 Trash Es 

而 Docume.… netbeans-7.2.1-ml- 

嘎 Music javase-linux.sh 

Ep 


安装 完 NetBeans 后 


， 进 入 Downloads 目录 ， 然 后 在 终端 窗口 输入 下 列 命令 : 


/home/Hadoop-Mahout/Downloads/sh netbeans-7.2.1-ml-javase-linux.sh 


执行 该 步骤 后 即 可 结束 。hadoop-mahout 用 户 目 


日 参见 www.NetBeans.org。 


录 看 起 来 如 下 图 所 示 。 
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OH hadoop-mahout - File Browser 


File Edit View Go Bookmarks Help 
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Documents 


jdk1.7.0_09 


NetBeansProjects 


令 


9464 7 


NetBeansProjects 目录 包含 Mahout 源 代码 和 新 加 入 的 代码 。 我 们 现在 感 兴趣 的 是 实现 在 


NetBeans 上 编译 Mahout 源 代 码 。 已 经 成 功 安 装 NetBeans， 接 下 来 准备 使 用 NetBeans 编译 


Mahonut 的 最 新 快照 。 


如 何 实现 它 


在 写本 书 的 时 候 ，Mahout 的 最 新 版 本 是 0.8。 建 议 使 用 该 版 本 ， 因 为 它 去 除了 一 些 bug， 
与 此 同时 ， 新 算法 和 新 特征 在 被 有 活力 的 社区 不 断 加 入 新 的 发 行 版 本 中 。 
1. 我 们 需要 从 Subversion 下 载 Mahout 源 ， 将 与 Maven 相关 的 工程 导入 NetBeans， 最 后 


安装 它们 。 


2. 幸运 的 是 ，NetBeans IDE 提供 了 所 有 这 些 操作 ， 它 们 被 整合 到 不 同 的 图 形 界面 上 。 简 
单 地 使 用 菜单 ， 单 击 Team 一 Subversion 一 Checkout， 将 http://svn.apache.org/repos/asf/ 
mahout/trunk 填 入 文本 框 一 一 库 网 址 中 ， 单 击 Next， 填 完 表 单 如 下 图 所 示 。 


Folders to Checkout 


Specify the folderfs) to checkout from Subversion repository. 


Repository Folder(s): [mahoutrtruny 


Repository Revision: |HEAD (Search...| Browse.., 


[Skip "trunk" and checkout only its content 


| Export a clean directory tree from the repository 


Specify the local folder to checkout folders into， 


Local Folder: |/home/hadoop-mahout/NetBeansprojects 


| Prefer Old Subversion 1.6 Format 


国 Scan for NetBeans Projects after Checkout 


Working Copy' /home/hadoop-mahout/NetBeansProjects/trunk 
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3. 一 旦 NetBeans 下 载 完整 个 包 ， 它 会 问 你 是 否 要 扫描 和 打开 那个 工程 。 单 击 对 话 框 上 的 
OK 按钮 ，IDE 将 导入 Maven 工程 。 现 在 ,在 Project 选项 卡 ， 你 将 会 看 到 如 下 图 所 示 内 容 。 


外 雹 全 Mahout Release Package - NetBeans IDE 7.2.1 


EE 呈 所 Eeeutomz 国 全 站 


+| 号 Other Sources 
+| 轧 Modules 


+| 硬 Dependencies 
+| 硬 Runtime Dependencies 
t+ 三 Project Files 


4. 源 代 码 下 载 完 成 后 ， 可 以 在 NetBeansProjects 中 找到 它们 。 
5. 现在 使 用 Maven 编译 这 些 源 代码 ， 在 Mahout Release Package 图 标 上 右 击 ， 选 择 
Clean and Build 项 即 可 。 
6. 因为 编译 步骤 需要 较 长 的 时 间 ， 此 时 可 以 稍 作 休息 。 当 你 结束 休息 时 ， 将 会 看 到 如 下 
图 所 示 的 输出 。 


Reactor Summary: 


和 SUCCESS [1.876s] 


Hh ME E 训 SUCCESS [9.457s] 
a i ed i SUCCESS [11.356s] 
ne SUCCESS [12.909s] 
有 SUCCESS [2.262s] 
Mahout Examples .............. .. SUCCESS [14.978s] 


. SUCCESS [0.909s] 


Mahout Release Package 


Total time: 44.187s| 
Finished at: Thu Nov 21 10:54:51 CET 2013 
Final Memory: 47M/128M 


我 们 现在 有 了 测试 Mahout 所 需 的 一 切 基 础 。 
如 果 在 NetBeans 工程 结构 中 单 击 依赖 图 标 ， 你 应 该 可 以 看 到 从 Apache 站 点 下 载 的 所 有 
JAR 包 及 其 依赖 JAR 包 ， 如 下 图 所 示 。 
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Projects x Files 
- WW Mahout Release P 
+| 加 Other Sources 
+ 蕊 Modules 
直人 岛 Dependencies 
出 [9 mahout-core-0.8-SNAPSHOT,jar[0.8-20121213.00293 
+ 国 s mahout-examples-0.8-SNAPSHOTjar [0.8-20121213.0 
十 [9 mahout-integration-0.8-SNAPSHOT.jar [0.8-20121213. 
土 6 mahout-math-0.8-SNAPSHOTjar [0.8-20121212.2337 
+ 国 activation-1.1,jar 
十 antlr-2,7.7 ,jar 
+ 国 antlr-3.2jar 
+| 国 antlr-runtime-3,2.jar 
+ 国 asm-3.1jar 
昌国 avro-1.5.3.jar 
十 国 avro-1.4.0-cassandra-1,jar 
SS 2 


本 山 ) bp 


它 是 如 何 工作 的 


NetBeans 使 用 Subversion 插件 从 Mahout svn 库 下 载 最 新 的 源 代 码 。 一 旦 完成 ， 
NetBeans 将 解析 源 代码 库 中 的 pom.xml 文件 ， 然 后 处 理 Maven 源码 并 编译 、 测 试 它们 ， 最 
后 在 目录 结构 下 生成 JAR 包 。 


更 多 


NetBeans 提供 给 你 的 仅仅 是 操作 Subversion Maven 进程 的 接口 。 但 是 如 果 使 用 单一 的 文 
本 编辑 器 编程 对 你 来 说 有 点 困难 ， 你 可 以 直接 使 用 命令 行 接口 。 

以 相同 的 方式 ， 你 也 可 以 使 用 Eclipse 访问 svn 库 并 使 用 Maven Eclipse 插件 来 编译 它们 。 

不 要 忘记 ， 一 旦 下 载 完 源 代 码 ， 在 准备 将 Maven 工程 导入 Elipse 之 前 ， 你 需要 在 源 代码 
的 根 目录 运行 下 列 命令 : 

mvn eclipse:eclipse 


这 将 创建 一 个 可 供 Eclipse 使 用 的 工程 导入 文件 。 


注意 ”如果 你 没有 遵循 先前 的 步骤 ， 你 的 代码 可 能 会 有 版 本 问题 或 编译 错误 。 


秘笈 3 编写 一 个 基本 的 推荐 系统 


现在 你 已 经 有 了 一 个 完全 配置 好 的 IDE， 里 面 有 从 源 代码 编译 的 Mahout 的 最 新 发 行 版 ， 
我 们 终于 可 以 测试 第 一 个 样 例 代码 了 。 

为 努力 从 用 户 的 角度 做 到 编码 少 一 点 得 到 多 一 点 ， 我 们 将 会 体验 一 个 使 用 Mahout 编写 
推荐 系统 的 例子 。 
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的 


— 


商品 。 
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顾名思义 ， 一 个 推荐 系统 是 一 款 软 件 ， 它 能 够 根据 你 先前 的 偏好 记录 为 你 新 的 (或 存在 
偏好 提供 一 些 建议 。 
比如 ， 关 于 购买 商品 的 推荐 系统 能 够 基于 你 先前 的 购买 行为 而 建议 下 一 次 应 该 购买 什么 


根据 推荐 算法 所 分 析 的 数据 类 型 的 复杂 性 ， 存 在 不 同类 型 的 推荐 算法 。 在 我 们 的 例子 


中 ， 我 们 将 使 用 Slope One 推荐 算法 ， 它 基于 协同 过 滤 (collaborative filter) 方法 。 
自动 推荐 系统 软件 是 数据 挖掘 历史 上 人 研究 最 早 的 问题 之 一 。 该 问题 大 体 上 可 以 分 两 步 
解决 : 


口 读 取 大 量 数据 ， 数 据 包含 用 户 对 某 个 条 目的 偏好 值 。 
口 找到 适合 推荐 给 用 户 的 那个 条 目 。 
每 个 在 电子 商务 网 站 (比如 亚马逊 ，Amazon) 上 购买 过 东西 的 顾客 一 定 会 看 到 站 点 向 你 


推荐 值得 购买 的 新 书 或 新 东西 。 我 们 会 采用 用 户 提 供 的 电影 推荐 数据 ， 从 中 挖掘 并 发 现 其 他 
还 没有 看 过 的 电影 ， 通 过 这 种 方式 来 模拟 也 会 得 到 相同 的 结果 。 


准备 工作 


数据 挖掘 算法 对 数据 是 非常 渴望 的 ， 你 给 的 数据 越 多 算法 的 输出 就 越 精 确 。 
在 进入 下 一 步 之 前 ， 我 们 需要 下 载 一 些 数据 集 供 测试 。 我 们 将 使 用 GroupLens 数据 集 来 


实现 电影 推荐 任务 。 


以 自 


GroupLens 数据 集 是 一 个 由 明尼苏达 州 (Minnesota) 大 学 计算 机 科学 与 工程 系 发 布 的 可 
由 获取 的 数据 集 ， 它 包括 100 万 条 由 6000 个 用 户 对 4000 个 电影 的 评分 等 级 。 
数据 可 以 以 文本 文件 的 格式 读 取 ， 这 对 Mahout 来 说 ， 是 一 种 最 简单 的 读 取 数据 的 方式 。 


简单 地 在 终端 输入 下 列 命 令 即 可 下 载 数 据 : 


wget http://www.grouplens.org/system/files/ml-1m.zip 

解压 缩 文 件 ， 你 会 看 到 目录 包括 下 面 四 个 主要 的 文件 : 

口 users.dat: 包含 6000 个 用 户 。 

口 movies.dat: 包含 电影 的 名 字 。 

口 ratings.dat : 包含 用 户 和 电影 之 间 的 关系 ， 该 关系 是 一 个 数字 ， 用 来 表示 某 个 用 户 喜 
欢 某 个 电影 的 程度 。 

口 README : 主要 是 对 数据 格式 的 解释 。 

如 果 你 打开 ratings.dat 文件 〈 你 马上 就 会 用 到 )， 你 会 发 现下 面 的 数据 行 : 

UserID: :MovieID: :Vote::datetime 

L19300760 


41433 3373978302109 
Troll 
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在 每 一 行 ， 你 会 看 到 一 个 电影 评分 ， 解 释 如 下 : 用 户 1 给 电影 《 One Flew Over the Cuckoo’s 
Nest》 评 了 5 分 (最 高 5 分); 给 电影 《 James and the Giant Peach 》 和 《 My Fair Lady 》 评 的 
都 是 3 分 。 最 后 一 个 长 的 数字 表示 评分 的 日 期 /时 间 。 

遗憾 的 是 ， 尽 管 Mahout 能 够 处 理 好 输入 是 文本 格式 的 情形 ， 但 这 并 不 是 Mahout 容易 使 
用 的 方式 。 这 是 因为 在 我 们 的 例子 里 分 阳 符 是 “::”。 这 个 简单 示例 将 向 你 展示 处 理 非 标准 数 
据 格式 时 会 遇 到 的 一 般 问题 。 

在 我 们 的 例子 里 面 ， 我 们 将 原始 问题 转化 为 另 一 种 格式 ， 如 下 所 示 : 


UseID,MovieID 
9 

1.661 

1,914 


大 体 上 ， 我 们 将 一 行 行 读 取 原始 文件 并 拷贝 每 一 行 到 新 文件 ， 在 这 个 过 程 中 ， 去 除 不 重 
要 的 信息 后 就 会 得 到 最 终 的 格式 。 

原始 文件 也 包含 对 电影 的 评分 值 。 推 荐 软件 并 不 关心 用 户 对 电影 的 评分 ， 于 是 我 们 市 掉 
它们 。 我 们 也 删除 了 评分 的 日 期 信息 。 

就 如 之 前 声明 的 那样 ， 本 书 中 都 用 Maven 来 创建 例子 ， 所 以 需要 在 NetBeans 中 创建 
Maven 工程 。 具 体 步 又 如 下 : 
口 创建 包括 main 类 的 Maven 工程 结构 。 
口 添加 Maven 依赖 到 先前 编译 的 Mahout Maven 工程 。 

启动 NetBeans， 打 开 “File” 菜 单 选 择 New Project， 从 显示 的 对 话 框 中 选择 Java 
Application ， 此 时 将 会 看 到 如 下 图 所 示 内 容 。 


x New Project 


Steps Choose Project 

1. Choose Project Categories: Brojects: 

2 国 java Sa] tion 
| 国 javaFx || 避 osGi e 


瞻 NetBeans Module 

网 NetBeans Application 
网 NetBeans Module Suite 
所 POM Project 

WW Project from Archetype 
WW Project with Existing POM 


男 NetBeans Modules 
+ 国 Samples 


Description: 


A simple Java SE application using Maven. 


| = Basek| [Next> | Enish | LScancel | 
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2 
完成 之 后 如 下 图 所 示 。 

Name and Location 

Project Name: chapter0] 

Project Location: |/home/hadoop-mahout/NetBeansPprojects [Browse | 

Project Folder: lhome/hadoop-mahout/NetBeansProjects/chapter01 

Artifact Id: chapter01 

Group Id: com.packtpub.mahoutcookbook 

‘Version: 1.0-SNAPSHOT 

Package: com,packtpub,mahoutcookbook,chapter01 【optional) 


LIE 


现在 ， 我 们 需要 添加 包 依 赖 到 先前 编译 过 的 Mahout Maven 源 代 码 。 为 了 在 Maven 工程 
目录 结构 下 完成 这 件 事情 ， 右 击 依赖 图 标 从 快捷 菜单 中 选择 Add dependency。 选 择 依赖 并 
添加 完 之 后 如 下 图 所 示 。 


Add Library 


Group ID: [org.apache.mahout | 


Artifact ID: | mahout | 


Version: | 0.8 Scope: | compile wl 


Open Projects EPENU Een lL 


Add Currently Qpen Project as Dependency: 


单 击 Add 按钮 ， 过 几 秒 ， 你 将 会 看 到 加 入 的 所 有 Mahout JAR 包 。 


如 何 实现 它 


现在 开始 编写 和 测试 第 一 个 例子 。 步 又 如 下 : 

1. 将 GroupLens 格式 的 ratings.dat 转化 为 CSV 格式 。 

2. 创建 一 个 Model 类 来 处 理 将 要 使 用 的 新 文件 ratings.csv 的 文件 格式 。 

3. 在 该 模型 上 创建 一 个 简单 的 推荐 系统 。 

4. 从 文件 ratings.csv 中 提取 整个 用 户 列表 需要 花费 一 段 时 间 ， 之 后 ， 在 标题 上 将 会 看 到 
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每 个 用 户 的 推荐 。 
遵循 前 面 的 步 又， 通过 下 面 的 代码 将 会 完成 它 。 在 进入 下 一 步 之 前 ， 首 先 完 成 一 些 必 要 
的 导入 操作 。 
1. 导入 的 包 如 下 所 示 : 


package 


import 
import 
import 
import 
import 
import 
import 
import 


import 
import 
import 


CachingRecommender; 


CE Ce ad ld i 


UU 


com.packtpub.mahoutcookbook.chaptero01; 


ava.io.BufferedReader; 
ava.io.BufferedWriter; 
ava.io.File; 
ava.io.FileNotFoundException; 
ava.io.FileReader; 
ava.io.FileWriter; 
ava.io.IOException; 

ava .util,.List; 


org.apache .commons .cli2.0ptionException; 


org.apache .mahout .cf.taste.common.TasteException; 
org.apache .mahout .cf.taste.impl .common. 
LongPrimitiveIterator; 

import org.apache.mahout.cf.taste.impl.model .file.FileDataModel 
import org.apache.mahout.cf.taste.impl.recommender. 


import org.apache.mahout.cf.taste.impl.recommender.slopeone. 


SlopeOneRecommender; 


import org.apache.mahout.cf.taste.model .DataModel; 


import org.apache.mahout.cf.taste.recommender.RecommendedItem; 


public class App 


{ 


static final String inputFile = "/home/hadoop-mahout/ 
Downloads/ml-1lm/ratings.dat"; 
static final String outputFile = "/home/hadoop-mahout/ 


Downloads/ml-1lm/ratings.csv"; 

Moving to the main method and the core of our code we first code 
a method to transform the original MovieLens file into a csv file 
without the vote as explained before. 


public static void main( String[] args ) throws IOException, 
TasteException, OptionException 


{ 


CreateCsvRatingsFile(); 


方法 的 完整 描述 如 下 : 


private static void CreateCsvRatingsFile() throws 
FileNotFoundException, IOException 


{ 


BufferedReader br = new BufferedReader (new 
FileReader (inputFile)); 


BufferedWriter bw = new BufferedWriter (new 
FileWriter (outputFile)); 


String line = null; 


String line2write = null; 
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String[] temp; 


int i = 0; 
while ( 
(line = br.readLine()) != null 
&& 
i < 10000 
{ 
i++; 
temp = line.split("::"); 
line2write = temp[0] + "," + temp[1]; 


bw.write (line2write); 
bw.newLine(); 
bw.flush(); 


br.close(}; 
bw.close(); 


} 
} 


2. 基于 CSV (Comma-Separated Value ) 文件 建立 模型 ， 如 下 所 示 : 


// create data source (model) - from the csv file 
File ratingsFile = new File(outputrFile); 
DataModel model = new FileDataModel (ratingsFile); 


3. 创建 SlopeRecommender: 


// create a simple recommender on our data 
CachingRecommender cachingRecommender = new 
CachingRecommender (new SlopeOneRecommender (model)); 


// for all users 
for (LongPprimitiveIterator it = model.getUserIDs(); 
it.hasNext ();) 


{ 


long userId = it.nextLong(); 


4. 最 后 ， 我 们 简单 地 显示 推荐 结果 : 8 


// get the recommendations for the user 


List<RecommendedItem> recommendations = cachingRecommender. 
recommend (userId, 10); 


// if empty write something 

if (recommendations.size() == 0){ 
System.out .print ("User "); 
System.out .print (userId); 
System.out .println(": no recommendations"); 


日 读者 在 阅读 这 段 代码 的 时 候 会 有 一 个 疑问 ， 为 什么 作者 会 多 出 两 个 右 括号 呢 ? 实际 上 ， 读 第 4 步 的 代码 应 
该 连同 前 3 步 的 代码 一 起 看 ， 其 中 对 应 的 一 个 左 括号 在 第 3 步 的 for 循 环 处 ， 另 一 个 对 应 的 左 括号 在 第 一 步 


的 类 定义 public classApp 处 。 一 一 译 者 注 
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// print the list of recommendations for each 

for (RecommendedItem recommendedItem : recommendations) { 
System.out .print ("User "); 
System.out .print (userId); 
System.out .print (": "); 
System.out .println (recommendedItem); 

} 

} 

} 


让 我 们 一 起 分 析 该 代码 看 看 它 做 了 些 什么 工作 。 


下 载 示 例 代码 ”你 可 以 通过 网 站 http:/www.packtpub.com 上 的 账号 下 载 你 购买 的 所 有 Packt 
出 版 的 书籍 的 例子 代码 。 如 果 你 在 别 的 地 方 购买 本 书 ， 你 可 以 访问 http://www.packtpub.com/ 
support 并 注册 ， 将 会 有 一 封 电子 邮件 直接 发 给 你 。 


它 是 如 何 工 作 的 

根据 该 代码 ， 我 们 有 import 语句 。 所 有 的 导入 包 都 来 自 于 链接 的 JAR 包 ， 它们 使 用 了 
Mahout0.8 版 本 的 依赖 包 。 

第 一 个 方法 用 作 数 据 转换 ， 即 方法 CreateCsvRatingsFile。 这 段 代 码 将 原始 文件 转换 为 以 
逗号 分 隔 的 一 个 个 的 数值 。 如 你 所 见 ， 我 们 选择 仅 转换 前 10 000 行 。 这 样 减少 了 算法 运行 过 
程 中 的 计算 时 间 并 避免 了 在 单 台 机 融 上 可 能 出 现 的 Java 堆 内 存 异 常 。 

一 旦 这 样 做 ， 我 们 将 开始 令 人 感 兴趣 的 事情 (包含 在 下 面 三 行 代码 中 ): 


File ratingsFile = new File(outputFile); 

DataModel model = new FileDataModel (ratingsFile); 

CachingRecommender cachingRecommender = new CachingRecommender (new 
SlopeOneRecommender (modqe1) ) ; 


基于 CSV 文件 创建 完 DataModel 类 之 后 ， 我 们 使 用 SlopeOneRecommender 创建 一 个 
CachingRecomender 对 象 。 
Mahout 提供 了 各 种 不 同 的 推荐 算法 ， 你 也 可 以 编写 推荐 算法 。 默 认 的 推荐 算法 有 : 
口 基于 用 户 的 推荐 算法 (user-based recommender): 该 算法 主要 是 通过 相似 度 或 邻居 
之 间 的 距离 来 连接 用 户 。 
口 基于 条 目的 推荐 算法 (item-based recommender): 该 算法 在 计算 偏好 值 时 并 不 仅仅 
使 用 近邻 准则 ， 还 考虑 将 条 目 之 间 的 相似 度 作为 变量 进行 推荐 。 
口 Slope One 推荐 算法 : 它 使 用 线性 函数 结合 用 户 和 条 目 来 估计 接近 程度 (proximity )。 
在 这 个 例子 中 ， 我 们 使 用 最 简单 且 有 效 的 一 种 算法 一 一 Slope One 推荐 算法 。 
然后 ， 我 们 遍历 新 文件 ratings.csv 中 出 现 的 每 个 用 户 ， 对 每 个 用 户 ， 我 们 提取 前 10 个 推 
荐 条 目 。 


邻 
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创建 和 编译 之 后 ， 第 一 次 运行 会 输出 的 推荐 结果 如 下 图 所 示 。 


国 output - chapter01 (run) x 


阶 |User 1: RecommendedItem[item:3, value:1.0] 
User 1: RecommendedItem[item:4, value:1.0] 
除 User 1: RecommendedItem[item:5, value:1.08] 
男 |user 1: RecommendedItem[item:5, value:1.0] 
User 1: RecommendedItem[item:7, value:1.9] 
妈 |User 1: RecommendedItem[item:8, value:1.0] 
User 1: RecommendedItem[item:9, value:1.0] 
User 1: RecommendedItem[item:10, value:1.0] 
User 1: RecommendedItem[item:11, value:1.0] 


例如 用 户 1， 推 荐 系统 以 1.0 的 概率 向 他 推荐 ID 号 为 3461 的 电影 ” (对 于 像 Slope 这 样 
的 布尔 值 推荐 算法 而 言 ， 它 输出 的 概率 经 常 是 1 )。 

如 果 你 查看 一 下 ID 号 为 1 的 用 户 资料 ， 通 过 文件 users.dat 你 会 发 现 该 用 户 是 一 名 18 岁 
以 上 的 女人 。 对 她 而 言 ， 比 如 ， 根 据 文件 movies.data， 被 推荐 的 3461 号 电影 是 : 


3461::Lord of the Flies (1963)::Adventure|Drama|Thriller 
2::Jumanji (1995)::Adventure|Children's|Fantasy 


令 人 感 兴 趣 的 是 ， 这 两 部 电影 的 情节 都 围绕 着 孩子 的 探险 。 即 使 电影 《 Lord of the 
Flies 》 的 标题 还 可 以 更 新 ， 但 考虑 到 用 户 的 年 龄 ， 该 推荐 仍然 给 出 了 一 个 好 的 建议 。 

读者 可 以 试 着 使 用 100 个 评分 来 代替 10 000 个 ， 只 要 替换 一 行 ， 以 i< 100 代替 1< 10 000 
即 可 。 

在 这 种 情况 下 ， 我 们 观察 到 算法 没有 输出 任何 推荐 结果 ， 如 下 图 所 示 。 


国 output - chapterol (run) x Bapp a ax 


run: 

Nov 21, 2013 2:07:45 PM org.sLf4] .ImpL.JCLLoggerAdapter Info 
INFO: Creating FileDataModel for file /mnt/new/ml-1lm/ratings.csv 
Nov 21, 2013 2:07:46 PM org.sLf4] .ImpL.JCLLoggerAdapter info 
INFO: Reading file info... 

Nov 21, 2013 2:07:46 PM org.sLf4] .ImpL.JCLLoggerAdapter info 
INFO: Read lines: 100 

Nov 21, 2013 2:07:46 PM org.sLf4] .ImpL.JCLLoggerAdapter info 
INFO: Building average diffs... 

User 1: no recommendations 

User 2: no recommendations 

BUILD SUCCESSFUL (total time: © seconds) 


问 贺 胞 如 


32 


于 是 结果 明显 地 受 ratings.cvs 大 小 的 影响 ,显然 ， 如 果 你 有 更 多 的 数据 ， 那 么 推 
给 你 的 推荐 就 更 好 。 


荐 算法 


另 请 参阅 


现在 我 们 已 经 编写 了 一 个 基本 的 推荐 系统 ， 在 例子 代码 里 ， 你 也 可 以 试 着 理解 其 他 类 型 


名 ”实际 上 我 们 从 上 述 运行 结果 中 看 不 出 ID 号 为 3461 的 条 目 。 译 者 注 
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的 推荐 算法 。 实 际 上 ， 里 面 有 一 个 立即 可 用 的 GroupLens 推荐 算法 ， 它 同样 使 用 用 户 设置 的 
偏好 值 。 更 为 复杂 的 方法 对 有 能 力 的 读者 理解 Mahout 推荐 算法 如 何 实 现 会 更 有 用 些 。 

了 解 推荐 算法 如 何 工 作 的 一 个 更 为 正式 的 途径 是 参考 下 面 这 篇 介绍 性 文章 http://dl.acm. 
org/citation.cfm?id=245121。 如 果 想 使 用 其 他 的 数据 集 来 测试 推荐 算法 ,你 可 以 下 载 Jester 数 
据 集 ”。 

关于 与 电子 商务 推荐 的 数据 集 ， 你 可 以 去 数据 集 超市 8 的 网 站 看 看 。 


参见 http://eigentaste.berkeley.edu/dataset/。 


© 
提 ”参见 http:/datamarket.com。 


第 2 革 使 用 序列 文件 一 一 什么 时 候 和 为 什么 


在 上 一 章 ， 我 们 简单 地 介绍 了 一 下 Mahout 并 通过 一 个 完整 的 例子 来 演示 如 何 使 用 
Mahout 编程 。 
从 更 高 层次 的 角度 来 看 ，Hadoop 的 MapReduce 算法 工作 的 示意 图 如 下 图 所 示 。 


= 

Es NN 2 工作 节点 1 

[me 
十 一 一 

FE SN 二 

~ 


从 编写 代码 的 角度 看 ， 我 们 有 两 个 阶段 : 
口 映射 (mapping ) : 在 这 一 阶段 ， 原 先 的 计算 问题 被 分 到 主 节 点 机 器 并 被 划分 成 更 小 
的 子 问题 。 每 个 子 问 题 被 送 到 不 同 的 工作 节点 ( 称 为 映射 子 ，mapper)。 
口 归 约 ( reducing) : 在 这 一 阶段 ， 收 集 每 个 映射 节点 的 输出 被 并 将 关键 字 索 引 相 同 的 
节点 的 输出 组 合 在 一 起 。 
为 了 从 概念 上 给 出 一 个 简单 的 例子 ， 考 虑 Hadoop 的 WordCount 类 ， 它 负责 统计 单个 文 
本 中 单词 出 现 的 次 数 ; 输出 是 键 / 值 对 的 集合 ， 其 中 键 是 单词 ， 值 表示 单词 在 文本 中 出 现 多 
少 次 。 我 们 将 文本 划分 成 更 小 的 部 分 ， 然 后 将 每 一 部 分 分 配给 一 个 mapper，mapper 记录 单 
词 在 该 部 分 的 文本 中 出 现 的 次 数 。 最 后 ， 一 旦 每 个 mapper 都 完成 工作 ， 对 重复 出 现 的 单词 
进行 求 和 汇总 就 得 到 键 / 值 对 的 整个 集合 。 这 种 方法 允许 你 分 析 非 常 大 的 数据 集 ， 唯 一 的 限 
制 是 每 个 mapper 都 不 应 该 超出 它 所 在 工作 节点 的 内 存 容量 。 该 框架 的 威力 在 于 它 能 够 并 行 
地 计算 每 个 map 工作 ， 所 以 你 可 以 让 不 同 的 工作 节点 同时 工作 在 更 小 块 的 原始 输入 上 。 并 
行 方法 已 被 证 明 总 体 比 序列 方法 快 5 倍 ， 即 使 对 于 非常 简单 的 算法 比如 归并 排序 也 是 这 样 。 
你 可 以 看 相关 的 文档 ， 详 见 : https:/www.vmware.com/files/pdf/VMW-Hadoop-Performance- 
vSphere$.pdf。 
我 们 意识 到 这 么 大 的 数目 处 理 起 来 一 定 要 非常 小 心 。 这 类 方法 在 很 多 场景 (包括 理 
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论 上 和 实际 应 用 中 ) 都 取得 了 成 功 。 尤 其 是 ， 当 数据 集 大 幅 增长 时 ， 这 是 唯一 实际 可 行 
的 方法 。 

然而 ， 相 比 于 传统 的 序列 算法 而 言 ， 并 行 算法 的 优势 将 会 受 限 于 下 列 事实 : 你 不 能 使 用 
同样 的 序列 算法 实现 并 行 。 这 就 是 为 什么 我 们 对 相同 的 算法 考虑 序列 化 版 本 和 并 行 化 版 本 时 
会 有 那么 大 的 差别 。 随 后 我 们 会 看 到 ， 好 多 机 顺 学 习 和 数据 挖 据 算 法 都 是 基于 向 量 和 和 珑 阵 的 
计算 ， 这 些 实体 很 容易 以 并 行 化 的 方式 整合 在 一 起 。 

现在 让 我 们 转向 本 章 的 第 一 个 秘笈 。 


秘笈 4 从 命令 行 创建 序列 文件 


在 进入 我 们 的 具体 方法 之 前 ， 我 们 要 有 供 测 试用 的 数据 集 。 我 们 选择 使 用 Lastfm 
数据 集 。 


准备 工作 


我 们 创建 一 个 新 的 工作 目录 来 开始 工作 。 选 择 一 个 目录 (在 这 个 例子 中 是 /mnt/new/)， 
输入 下 列 命 令 : 


mkdir lastfm 


mkdir ./lastfm/original 

mkdir ./lastfm/sequencesfiles 
export WORK DIR=/mnt/new/lastfm 
cd S$WORK DIR 


于 是 我 们 创建 了 一 个 lastfm 目录 来 存储 想 要 使 用 的 数据 。 为 简单 起 见 ， 我 们 设置 了 一 个 
环境 变量 来 存储 绝对 路 径 (在 这 个 例子 中 是 /mntnew/lasttm ) 。 为 了 确保 例子 能 运行 你 可 以 相 
应 地 改变 它 。 

数据 集 Lastfm 可 以 自由 获取 ， 使 用 下 列 命令 可 以 下 载 它 : 


cd $WORK DIR 


hadoop-mahout@hadoop-mahout-laptop:/mnt/new/lastfm$ wget http://static. 
echonest.com/Lastfm-ArtistTags2007.tar.gz 


解压 缩 文 件 ， 使 用 下 列 的 命令 : 


hadoop-mahout@hadoop-mahout-laptop:/mnt/new/lastfm$ tar -xvzf Lastfm- 
ArtistTags2007.tar.gz 
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现在 在 你 的 $WORK DIR 目录 下 应 该 有 如 下 图 所 示 的 目录 。 


Back v i v 会 色 画 画 Q 50% @ v 


Mi 
于 hadoop-mahout Name & Size Type 


国 Desktop El | Lastfm-ArtistTags2007 4 items folder 
File System + 而 original 0 items folder 
写 ak + | 大 :equencesfiles 0 items folder 
加 /dev/sda2 


“0 Lastftm-ArtistTags20... | 8.3 MB Tar archive (gzip-compresserc 
部 Trash pm 9 (gzip-comp 


通过 下 列 命 令 可 以 将 原始 文件 复制 到 目录 $WORK_DIR/original 中 : 


hadoop-mahout@hadoop-mahout-laptop:/mnt/new/lastfm$ cp /mnt/new/lastfm/ 
Lastfm-ArtistTags2007/*.* /mnt/new/lastfm/original/ 


进入 下 一 步 之 前 我 邀请 你 看 看 创建 数据 集 的 文件 : 
口 Artists.txt: 包含 艺术 家 的 注册 信息 。 
口 Tags.txt: 包括 数据 集中 的 所 有 标记 。 
口 ArtistTags.dat: 列 出 了 标记 和 艺术 家 之 间 的 所 有 关系 。 


如 何 实 现 它 
现在 是 时 候 将 我 们 的 第 一 个 文件 从 它 的 原始 格式 转化 为 Mahout 的 序列 格式 了 ， 其 命令 
非常 简单 : 


mahout seqdirectory -i SWORK DIR/original -o S$WORK DIR/sequencesfiles 


输出 如 下 图 所 示 。 


Running on hadoop, using /home/hadoop-mahout/hadoop-1.0.4//bin/hadoop and H 
MAHOUT-JOB: /home/hadoop-mahout/NetBeansProjects/mahout/examples/target/mah 
Warning: $HADOOP HOME is deprecated. 


13/11/21 16:50:58 INFO common.AbstractJob: Command line arguments: {--chars 
tynew/ALastfmyyoriginatL]，--keyPrefix=[]，--method=[mapreduce]，--output=[ym 
13/11/21 a INFO common.HadoopUtil: Deleting /mnt/new/lastfm/sequence 
13/11/21 16:51:99 INFO util.NativeCodeLoader: Loaded the native-hadoop Libr 


13/11/21 5 INFO input.FileInputFormat: Total input paths to process 
13/11/21 :51:99 WARN snappy.Loadsnappy: Snappy native Library not Loaded 
13/11/21 16:51:91 INFO mapred.JobClient: Running job: job local 68961 
13/11/21 下 INFO util.ProcessTree: setsid exited with exit code 6 
13/11/21 Sm INFO mapred.Task: Using ResourceCalculatorPlugin : org.al 
13/11/21 :51: INFO zlib.ZlibFactory: Successfully loaded & initialized 
13/11/21 :SL INFO compress.CodecPool: Got brand-new compressor 
13/11/21 二 下 INF0 mapred.JobClient: map 6s reduce Qs% 


输出 目录 $WORK DIR 下 的 输出 结果 包括 两 个 文件 ， 如 下 图 所 示 。 
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9 OE@ sequencesfiles - File Browser 


舍 Back ， onward v 会 园 色 国画 | lo Q& v 
nt 


到 hadoop-mahout 
国 Desktop 2 » 


8 “i 4010 
六 File Se chunk- 0 chunk-1 
夯 Netwol 
国 /dev/sda2 
| 总 Trash 


它 是 如 何 工作 的 
序列 文件 (sequence file) 是 键 / 值 对 的 二 进 制 编码 。 在 文件 的 开始 有 一 个 文件 头 ， 其 中 
包括 一 些 元 数据 信息 : 
口 版 本 
口 键 名 称 
口 值 名 称 
口 压缩 信息 
可 以 使 用 下 面 的 seqdumper 命令 来 查看 产生 的 文件 : 
mahout seqdumper -i S$WORK DIR/sequencesfiles/chunk-0 | more 


输出 如 下 信息 : 


Input Path: /mnt/new/lastfm/sequencesfiles/chunk-0 


Key class: class org.apache.hadoop.io.Text Value Class: class org.apache. 
hadoop.io.Text 

Key: /tags.txt: Value: 440854 rock 

343901 seen live 

277747 indie 

245259 alternative 

184491 metal 

158252 electronic 


首先 展示 了 key 类 和 value 类 如 何 绑 定 到 Java 对 象 上 (在 这 个 例子 中 ， 两 者 都 绑 定 到 
org.apache.hadoop.io.Text 类 )。 

如 果 没 有 特别 说 明 ， 解 析 黑 认 使 用 普通 的 文本 格式 。 

另 一 个 有 用 的 选项 是 -ow 选项 ， 它 将 会 重 写 已 存在 的 目标 文件 。 

当 解 析 文 本 文件 时 ， 选 择 seqdirectory 非常 有 用 ， 但 考虑 到 不 同 的 文件 有 不 同 格式 ， 因 此 
在 这 种 情况 下 它 没有 什么 意义 。 此 外 ， 当 唯一 定义 键 / 值 对 的 关系 时 ， 也 可 以 得 到 所 要 求 格式 
的 文件 。 接 下 来 转 到 代码 部 分 看 一 看 如 何 使 用 更 为 结构 化 的 Java 方法 来 创建 序列 文件 。 
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秘笈 5 编写 代码 创建 序列 文件 


在 这 个 例子 里 面 ， 我 们 将 使 用 文件 Artists.txt 并 利用 文件 中 的 唯一 


称 来 创建 序列 文件 。 原 来 文件 的 格式 如 下 所 示 : 


25231 Radiohead 
20372 Pink Floyd 
20251 The Beatles 


19600 Red Hot Chili Peppers 
18867 System of a Down 
18671 Metallica 

18671 Coldplay 

18143 Nirvana 

17629 Death Cab for Cutie 
17507 Muse 

16268 Green Day 

16057 Franz Ferdinand 
15306 Nine Inch Nails 
15258 Led Zeppelin 

15114 Tool 


我 们 喜欢 使 用 相同 的 格式 来 创建 序列 文件 。 
准备 工作 
在 转 到 目录 netbeansprojects 之 前 ， 打 开 终 端 并 输入 下 列 命 令 : 


hadoop-mahout@hadoop-mahout-laptop:~/NetBeansProjects$ mvn 
archetype:create -DarchetypeGroupId=org.apache.maven.archetypes 
DgroupId=com.packtpub .mahoutcookbook -DartifactIid=chapter02 


你 将 会 看 到 如 下 图 所 示 输 出 。 


ID 号 、 键 / 值 对 的 名 


打开 NetBeans， 从 File 菜单 中 选择 New Project 就 会 出 现 如 图 所 示 的 对 话 框 。 
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Steps Choose Project 
1. Choose Project Categories; Projects: 
a 国 Java ba NerBeans MooUIe rr 


javaFX | | 网 NetBeans Application 
ms NetBeans Module Suite 
NetBeans Modules | [me POM Project 


+ Samples [ee 
| 大 Project with Existing PON 
5 r 
Description: 
Maven project templates created with Maven's own 
Archetype Plugin， 


al en 攻 加 着 加 
下 一 步 你 将 会 看 到 由 mvn 命令 创建 的 目录 ， 如 下 图 所 示 。 


Ope 


n Project 
国 NetBeansProjects 图 省 男 


由 a chapterOl 


Look In: 


RR roect Namne 
nk | 


国 Open Required Projects; 


File Name: /home/hadoop-mahout/NetBeansProjects/chapter02 [epeneroject| 
Files of Type: |project Folder encela 


单 击 按钮 Open Project， 导 入 的 最 终结 果 如 下 图 所 示 。 


团 Source Packages 
团 Test Packages 

图 Dependencies 

图 Test Dependencies 
苹 java Dependencies 
区 Project Files 


车 | 计 | 计 | 请 | 计 | 庄 


当 使 用 mvn 命令 时 ， 默 认 情 况 下 会 生成 App.Java 文件 。 你 需要 在 project 图 标 上 右 击 ， 
从 快捷 菜单 中 选择 Delete 来 删除 它 。 现 在 ， 你 添加 一 个 新 的 CreateSequenceFileFromArtists 
主 类 对 象 到 工程 中 。 

你 将 得 到 输出 的 如 下 图 所 示 工 程 结构 。 
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3 志和 ape - NetBeans IDE 7.2.1 


牟 四 国 同 D0 er 


二 chapter02 

一 沪 Source Packages 

司 国 com.packtpub.mahoutcookbook 

图 createsequenceFileFromArtistsjava | 
+| 图 Test Packages 

全 Dependencies 
+| 号 Test Dependencies 
- 蝇 Java Dependencies 

+ 世 ] JDK 1.7 (Default) 
+ 三 Project Files 


工程 需要 Hadoop 才能 运行 ， 所 以 你 需要 链接 包含 Hadoop 接口 和 类 的 JAR 包 ， 该 包 用 
在 mapreducer 中 。 ea Maven 工程 能 够 使 用 在 线 的 Hadoop 库 来 下 载 所 需 的 文件 。 

我 们 需要 让 每 件 事 情 都 能 正常 工作 才能 加 入 JAR 包 依 赖 。 为 做 到 这 件 事 情 你 需要 右 击 
人 从 快捷 菜单 中 选择 Add dependency， 就 会 进入 如 下 图 
所 示 对 话 框 。 


Group ID: | | 


Artifact ID: | | 


‘Version: | Scope: [compile yu 


Search 】 Daparidsney Marnadgarfiart 


Query: [hadoop | 


(coordinate, class name, project name...) 


Search Results' 


+ a com.ning : metrics.serialization-hadoop 


+ a com.ning :lzfahadoop a 
+ a com.senseidb : sensei-hadoop-indexing 


加 0.22.0-SNAPSHOT[ pom ] - apache.snapshots 
org.apache.bigtop,itest : hadoop-smoke 
org.apache.bigtop itest ; hadoop-smoke-execution 

org.apache.hadoop : hadoop 

org.apache.hadoop : hadoop-annotations 过 


芽 ] 匡 ] 医 ] 医 
ooougog 


- 国 国 


以 同样 方式 加 入 hadoop-core Maven 包 来 安装 包 依 赖 ， 如 下 图 所 示 。 


26 *% 第 2 章 使 用 序列 文件 一 什么 时 候 和 为 什么 


Projects X 


= 人 留 Source Packages 
# 国 com.packtpub.mahoutcookbook 
+ 唱 Test Packages 


hadoop-core-0.20.2,jar 
ant-1.6.5,jar 
commons-cli-1.2jar 
commons-codec-1.3.jar 
commons-el-1.0.jar 
commons-httpclient-3.0.1.jar 
commons-logging-1.0.3.jar 


局 ) 局) 于) 匠 
贺 圆 贺 男 团 回 


此 | 性 | 肚 


如 何 实 现 它 


类 CreateSequenceFileFromArtists 的 代码 如 下 : 


package com.packtpub.mahoutcookbook; 


import java.io.BufferedReader; 

import java.io.FileNotFoundException; 

import java.io.FileReader; 

import java.io.IOException; 

import org.apache.commons.beanutils.ConvertUtils; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.Sequencerile; 


import org.apache.hadoop.io.Text; 


/** 
* 
* @author hadoop-mahout 
*/ 
public class CreateSequenceFileFromArtists { 
public static void main(String[] argsx) throws 
FileNotFoundException, IOException 


String filename = "/mnt/new/lastfm/original/artists.txt"; 
String outputfilename = '"/mnt/new/lastfm/sequencesfiles/part- 
站 人 DOn 


Path path = new Path(outputfilename) 


//opening file 

BufferedReader br = new BufferedReader 
(new FileReader (filename)); 

//creating Sequence Writer 

Configuration conf = new Configuration(); 

FileSystem fs = FileSystem.get (conf); 

SequencerFile.Writer writer = new SequenceFile.Writer 
(fs,conf,path,LongWritable.class, Text .class); 


string line = br.readLine(); 
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String[] temp; 
String tempvalue = new String(); 
String delimiter = " "; 
LongWritable key = new LongWritable(); 
Text value = new Text (); 
long tempkey = 0; 
while (line != null) { 
tempkey++; 
line = br.readLine(); 
temp = line.split (delimiter); 


key = new LongWritable (tempkey); 

value = new Text() ; 

tempvalue = ""; 

for (int i=1; i< temp.length;i++) { 
tempvalue += templ[i] + delimiter; 

} 

Value = new Text (tempvalue); 

System.out.println("writing key/value " + key.toSstring() 
+ "/" + value.tostring()); 

writer.append (key,value); 


writer.close(); 
bf.close(); 


} 
} 


代码 的 输出 如 下 图 所 示 。 


‘Output - chaptero2 (run) x 


除 |writing key/value 1/Pink Floyd 

writing key/value 2/The Beatles 

除 writing key/value 3/Red Hot Chili Peppers 
writing key/value 4/System of a Down 
writing key/value 5S/MetaLtLica 

器 |writing key/value 6/Coldplay 

writing key/value 7/Nirvana 

writing key/value 8/Death Cab for Cutie 
writing key/value 9/Muse | 

iting key/value 10/Green Day 
key/value 11/Franz Ferdinand 


通过 hadoop 命令 也 可 以 得 到 相同 的 输出 : 
hadoop-mahout@hadoop-mahout-laptop:/mnt/new/lastfm/sequencesfiles$ hadoop 
dfs -text part-0000 


这 与 Mahout 的 seqdumper 命令 类 似 ， 但 是 它 不 需要 目标 输出 文件 。 
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输出 显示 如 下 图 所 示 。 


warning: $HADOOP_ HOME is deprecated . 


13/11/22 13:19:18 INF0O util.NativeCodeLoader: Loaded the native-hadoop Libr 

13/11/22 13:19:18 INFO zlib.ZlibFactory: Successfully loaded & initialized 

13/11/22 13:19:18 INFO compress.CodecPool: Got brand-new decompressor 
449854 rock 


184491 metal 

158252 elLectronic 
136691 punk 

124599 pop 

119939 indie rock 
192937 cLassic rock 
97264 alternative rock 
89277 female vocalists 
79497 emo 

77455 death metal 


它 是 如 何 工作 的 


如 同 我 们 先前 所 看 到 的 那样 ， 序 列 文件 的 格式 包含 键 / 值 对 。 算 法 的 主要 执行 步 又 如 下 : 

1. 打开 文件 artist.txt 并 一 行 行 读 取 。 

2. 对 每 一 行使 用 一 个 计数 器 来 为 每 个 键 创 建 唯一 的 索引 。 

3. 对 每 一 行 ， 读 到 那 一 行 的 artist 域 就 创建 一 个 value 类 。 

4. 写 键 / 值 对 到 序列 文件 。 

我 们 使 用 BufferedReader 类 对 象 打开 文件 。 在 下 列 代码 中 ， 创 建 Sequence.writer 对 象 时 
有 些 环 手 : 


//creating Sequence Writer 


Configuration conf = new Configuration(); 

FileSystem fs = FileSystem.get (conf); 

SequenceFile.Writer writer = new SequenceFile.Writer 
(fs,conf,path,LongWritable.class,Text .class); 


为 创建 序列 文件 ， 你 需要 声明 Hadoop 的 Configuration 、FileSystem 类 型 和 键 / 值 对 类 。 在 这 
个 例子 中 ， 我 们 使 用 预定 义 的 Hadoop 类 一 一 LongWiritable 和 Text 类 (对 应 Java 中 的 long 和 string 
类 型 )。 原 始 的 文件 artist.txt 使 用 空格 作为 分 隔 符 ， 我 们 需要 划分 每 一 行 来 找到 艺术 家 的 名 称 。 

使 用 下 列 代码 来 添加 键 / 值 对 : 

writer.append (key, value); 

最 终 ， 我 们 使 用 下 列 代 码 来 关闭 Writer 对 象 ; 


write.close() 


秘笈 6 编码 实现 读 取 序列 文件 
学 习 如 何 创建 序列 文件 之 后 ， 是 时 候 读 取 序列 文件 了 。Mahout 提供 读 取 序列 文件 的 功能 
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并 将 每 个 键 / 值 对 转化 成 文本 格式 。 命 令 行 非 常 容易 使 用 。 比 如 ， 为 了 打印 在 前 面 的 秘笈 中 
创建 的 文件 流 ， 输 入 下 列 控制 台 命令 即 可 : 


mahout seqdumper -i S$SWORK DIR/sequencesfiles/part-0000 -o 
/mnt/new/lastfm/sequencesfiles/dump 


命令 行将 前 面 生成 的 part-0000 文件 的 内 容 写 到 $SWORK_DIR 目录 下 的 dump 文件 中 。 

然而 ， 这 种 功能 只 能 显示 没有 被 使 用 的 序列 seqdumper 的 内 容 。 

考虑 到 生成 的 序列 文件 将 会 被 Hadoop 的 mapper 和 reducer 使 用 和 分 析 ， 我 们 将 演示 为 
了 使 用 序列 文件 如 何 通过 Java 代码 来 读 取 序 列 文件 。 尤 其 是 将 读 取 一 个 序列 文件 并 通过 它 创 
建 一 个 CSV 文件 。 


准备 工作 
为 了 能 够 运行 ， 你 需要 在 已 有 的 Maven 工程 中 添加 一 个 新 类 。 在 之 前 创建 的 NetBeans 
工程 中 添加 一 个 新 的 Java 类 ， 如 下 图 所 示 。 


projects x NSIS OE | createsequencel 


-= chapter02 a 
国 量 SS 
局 国 


加 Java Class 
+| 加 Test Packages 
+| 唱 Dependencies 
+ 晶 Test Dependencies 因 生 
t+| 局 java Dependencies 
+| 区 Project Files 
-名 chapter04 
司 留 Source Packages 


+| 鄙 Test Packages 
+ 性 Dependencies 
+| 轧 Test Dependencies 
+ 号 Non-classpath Depe 罩 轴 


当 窗口 出 现时 ， 在 文本 框 中 输入 类 的 名 称 ， 在 这 个 例子 中 是 ReadSequenceFileArtist， 随 
后 单 击 Ok 按钮 。 


如 何 实 现 它 


现在 类 已 经 准备 好 了 ， 我 们 简单 地 通过 下 列 步骤 来 添加 一 些 代 码 到 main 方法 中 。 
1. 首先 ， 导 入 所 需 的 类 ， 如 下 列 代 码 所 示 : 
/* 


类 小 


package com.packtpub.mahoutcookbook; 


import java.io.FileWriter; 
import java.io.IOException; 
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import java.io.PrintWriter; 

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.LongWritable; 
import org.apache.hadoop.io.SequenceFile; 
import org.apache.hadoop.io.Text; 


2. 在 main 类 中 加 入 下 列 代 码 : 


public class ReadSequenceFileArtist { 


public static void main(String[] argvs) throws IOException 


{ 


String filename = "/mnt/new/lastfm/ 
sequencesfiles/part-0000"; 


Path path = new Path(filename); 


String outputfilename = "/mnt/new/lastfm/ 
sequencesfiles/dump.csv"; 


FileWriter writer = new FileWriter (outputfilename); 
PrintWriter pw = new PrintWriter (writer); 

String newline = System.getProperty("line.separator"); 
//creating header 

pw.print ("key,value" + newline); 


//creating Sequence Writer 

Configuration conf = new Configuration(); 

FileSystem fs = FileSystem.get (conf); 

SequenceFile.Reader reader = new 
SequenceFile.Reader (fs,path, conf).; 


LongWritable key = new LongWritable(); 
Text value = new Text (); 


while (reader.next (key, value)) { 
System.out .println( "reading key:" + key.toString() + 
" with value " + value.toString()); 
pw.print (Kkey.toString() + "," + Vvalue.toSstring() + 
newline); 


} 


reader.close ();，; 


pw.close(); 
writer.close(); 


ea 


3. 运行 上 述 代 码 ， 输 出 目录 将 包含 dump.csv 文件 ， 如 下 图 所 示 。 
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DO@ sequencesfiles - File Browser 


售 Back v 让 Fomard v 省 [x, € 把 | 加 Q 100% Q@ v 
m+* 回国 国 攻 加 E 医 ED 
矶 hadoopmahout || FT 
1 0 
国 Desktop | | 
加 File system chunk-0 chunk-1 
珊 Network 
国 /dev/sda2 时 本 
最 Trash [ww | 
Ee art-0000 
Dm dump.csv p 
大 Music 
国 Pictures 


4. 当 使 用 OpenOffice 打开 文件 时 ， 可 以 看 到 如 下 图 所 示 内 容 。 


玉昌 dump.csv - Openoffice.org Calc 


生 - 瑟 二 9 回 昌 es 加 X 四 自生 二 
| Liberation Sans 国 Do 四 人 A424 AI 轩 国 国 转 |=3| 


3|Red Hot Chili Peppers 
4System of a Down 


8lDeath Cab for Cutie 


它 是 如 何 工 作 的 

使 用 创建 PrintWriter 类 的 对 象 来 处 理 输出 非常 容易 。 令 人 感 兴趣 的 部 分 是 创建 
Sequence.Reader 类 的 对 象 。 除 了 在 读 取 键 / 值 内 容 的 情况 下 ，reader 类 的 使 用 方式 与 writer 
类 的 是 对 称 的 。 下 列 代 码 用 来 创建 它 : 


//creating Sequence Writer 


Configuration conf = new Configuration(); 

FileSystem fs = FileSystem.get (conf),; 

SequenceFile.Reader reader = new SequenceFile.Reader 
(fs,path,conf),; 


LongWritable key = new LongWritable(); 
Text Value = new Text(); 
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我 们 分 别 声明 了 两 个 对 象 来 存储 键 类 型 和 值 类 型 。 我 们 已 经 知道 了 它们 


果 不 知道 ， 现 在 你 可 以 转化 它 的 类 类 型 。 
我 们 使 用 while 循环 来 读 文 件 一 直 读 到 文件 结束 : 


while (reader.next (key, value)) { 
System.out.println( "reading key:" + key.toString() + " 
with value " + value.toString()); 
pw.print (key.toString() + "," + Vvalue.toString() + newline); 


} 


TT 


就 像 你 看 到 的 那样 ， 每 当 调用 Sequence.Reader 对 象 的 next 方法 时 ， 就 初始 化 一 个 新 的 


键 / 值 对 象 串 。 


在 这 个 例子 中 ,我 们 使 用 键 / 值 对 来 生成 一 个 新 的 CSV 行 ， 而 CSYV 行 以 逗号 隔 开 ,在 


字符 串 的 最 后 是 系统 的 回 车 换行 符 。 
最 终 ， 我 们 使 用 下 列 代 码 关闭 每 个 reader 和 writer 关联 的 对 象 : 


reader.close(); 


pw.close(); 
writer.close(); 


按照 前 面 的 方式 编写 代码 是 一 个 非常 坏 的 编程 习惯 ， 因 为 writer 对 象 句柄 可 能 由 于 某 些 
原因 会 指向 null 句柄 ， 程 序 将 会 导致 NullPointerException 错误 。 一 种 更 好 的 方法 是 使 用 下 


面 的 代码 : 
if (reader != null) reader.close(); 
if (pw != null) pw.close(); 


if (writer != null) writer.close(); 


第 3 童 将 Mahout 和 外 部 资源 整合 


到 目前 为 止 ， 我 们 已 经 知道 了 Mahonut 在 单机 环境 下 和 分 布 式 环境 下 分 别 是 如 何 工 作 的 。 
但 是 大 体 上 我 们 仅仅 能 处 理 些 文件 ， 即 由 一 些 MapReduce 作业 生成 的 数据 源 文件 或 者 序列 
文件 。 

然而 ,任何 从 事实 际 应 用 的 编程 者 都 知道 除了 一 些 租 入 式 应 用 以 外 ，90% 的 数据 都 不 存 
储 在 这 类 文件 中 。 大 多 数 情况 下 ， 数 据 以 更 加 结构 化 的 方式 来 存储 。 在 大 多 数 情 况 下 数据 存 
储 软件 将 数据 存储 在 关系 数据 库 中 ， 或 者 NOSQL 数据 库 中 ， 这 是 一 种 颇具 潜力 的 新 软件 。 

于 是 当 我 们 为 了 数据 挖掘 读 取 一 些 数据 时 ， 我 们 将 从 关系 数据 库 中 读 取 它 。 在 很 多 情况 
下 ， 考 虑 到 我 们 的 Mahout 分 析 也 会 产生 数据 ， 为 了 让 其 他 的 软件 出 于 显示 的 目的 能 够 读 取 
它 ， 我们 需要 以 结构 化 表 的 方式 来 存储 它 。 

根据 我 们 在 数据 挖掘 应 用 方面 的 经 验 ， 一 个 包含 数据 挖掘 框 架 的 结构 良好 的 环境 应 该 包 
含 下 图 所 示 的 架构 。 


Hadoop 在 企业 中 的 应 用 


科学 : 医学 图 像 传感器 
数据 、 基 因 序 列 、 天 气 
数据 、 卫 星 资讯 等 


工业 : 财经 、 制 药 业 、 
制造 业 、 保 险 、 航 空 、 
能 源 及 零售 等 


Hadoop 分 布 式 文 | 
件 系统 (HDFS ) 


@ 高 容量 数据 流 @ MapReduce 处 理 过 程 © 消费 结果 


为 管理 导入 和 导出 ,我 们 将 使 用 Sqoop。Sqoop 是 另 一 个 Apache 软件 基金 项 目 ， 用 于 连 
接 Hadoop 生态 系统 与 外 部 的 数据 资源 和 RDBMS 。 
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该 工具 是 使 用 Java 语言 编写 的 ， 从 算法 的 角度 来 看 ， 它 也 是 基于 MapReduce 框架 的 。 
如 同 目前 所 了 解 的 那样 ， 以 并 行 的 方式 读 取 数据 和 在 分 布 式 的 文件 系统 中 使 用 它 不 同 于 以 序 
列 方式 访问 。 这 是 因为 当 从 RDBMS 中 读 取 一 块 数据 之 后 ， 先 前 读 取 的 数据 块 将 会 用 于 其 
他 计算 步骤 ， 所 以 在 开始 计算 步骤 之 前 不 必 提 取 完 数据 集中 的 所 有 数据 ， 然 而 这 在 序列 式 的 
RDBMS 编程 中 却 经 常 发 生 。 

至 于 Hadoop 平台 的 其 他 组 件 ， 该 组 件 包 含 命令 行 工具 和 供 Hadoop 编程 使 用 的 API。 
首先 介绍 第 一 个 例子 ， 即 导入 数据 到 HDFS (Hadoop 分 布 式 文件 系统 )。 
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很 显然 ， 在 开始 之 前 我 们 需要 创建 一 个 RDBMS 数据 源 来 供 我 们 测试 使 用 。 我 们 选用 
MySQL 作为 RDBMS 系统 ， 安 装 了 一 个 测试 数据 库 同 时 用 作 关 于 HDFS 的 读 写 和 存储 媒介 。 
在 我 们 的 例子 中 ， 我 们 使 用 配置 单 CPU 和 3GB 的 内 存 的 VirtualBox Ubuntu 虚拟 机 作 测 试 。 
我 们 安装 的 MySQL 服务 器 版 本 显示 如 下 图 所 示 。 


protocol version 


| 
version 5.1.66-9ubuntu6.19.94.3 | 
version _ Comment (Ubuntu) 
version compile machine | i486 
version compile os debian-Linux-gnu 


5 rows in set (6.99 sec) 


我 们 已 经 在 我 们 的 机 器 上 安装 了 测试 数据 库 ， 但 是 在 Sqoop 被 使 用 的 90% 的 实际 应 用 
中 ，RDBMS 和 Sqoop 运行 在 不 同 的 机 融 上 。 

开始 测试 之 前 的 流程 如 下 : 

口 安装 MySQL 服务 器 。 

口 导入 测试 数据 库 到 MySQL。 

口 安装 和 配置 Sqoop。 

口 格式 化 HDFS。 


准备 工作 
如 我 们 先前 看 到 的 那样 ， 我 们 需要 安装 一 个 工作 用 的 MySQL 服务 器 让 客户 端 能 够 连接 
它 ， 并 在 它 上 面 安装 一 个 测试 数据 库 。 完 成 这 一 步 之 后 ， 我 们 需要 为 我 们 的 第 一 个 导入 所 安 
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装 和 配置 Sqoop。 

为 了 在 Ubuntu 系统 上 做 这 件 事情 ， 我 们 打开 一 个 终端 并 在 非 根 账户 ( non-root account) 
下 输入 下 列 命令 : 

sudo apt-get install mysql-server 

在 安装 的 过 程 中 ， 软 件 将 会 让 你 为 数据 库 根 账户 设置 密码 ， 设 置 一 个 即 可 。 我 们 将 使 
用 美国 官方 的 棒球 锦标 赛 统 计数 据 的 样本 数据 库 来 做 测试 ， 该 数据 来 自 网 站 www.baseball- 
databank.org。 执 行 下 列 一 系列 命令 即 可 下 载 和 安装 该 数据 库 ”: 


Wget http://www.baseball-databank.org/files/BDB-sql-2011-03-28.sql.zip 


Unzip BDB-sql-2011-03-28.sql.zip 
mysql -u root -p -e 'create Schema bbdatabank;' 


Mysql -u root -p -s bbdatabank < BDB-sql-2011-03-28.sql 
当 从 命令 行 选项 返回 时 ， 可 以 使 用 下 列 命令 来 检查 一 下 安装 后 一 切 是 否 正常 工作 : 


hadoop-mahout@hadoop-mahout-laptop:~$ mysql -u root -p -s bbdatabank -e 
'select distinct name from Teams limit 10;' 


Enter password: 

name 

Boston Red Stockings 
Chicago White Stockings 
Cleveland Forest Citys 
Fort Wayne Kekiongas 
New York Mutuals 
Philadelphia Athletics 
Rockford Forest Citys 
Troy Haymakers 
Washington Olympics 


Baltimore Canaries 


现在 我 们 已 经 安装 好 数据 库 并 准备 使 用 它 ， 我 们 可 以 开始 安装 Sqoop 了 。 安 装 步 又 相当 
容易 ， 但 是 需要 先前 的 那些 设置 ， 因 为 Sqoop 使 用 JDBC 驱动 将 自己 绑 定 到 RDBMS。 因 此 
我 们 需要 下 载 Sqoop 和 mysql jdbc 驱动 连接 库 。 

为 了 进一步 处 理 ， 读 者 应 该 打开 一 个 终端 ， 分 别 从 sqoop.apache.org 和 MySQL 网 站 下 
载 Sqoop 和 MySQL JDBC 驱动 包 (.jar 文件 )。 

重新 开始 之 后 ， 需 要 做 下 列 事情 : 

1. 下 载 Sqoop 和 mysql JAR 文件 。 

2. 解压 缩 Sqoop 并 将 JAR 文件 拷贝 到 一 个 目录 下 。 

3. 创建 SQOOP_HOME 环境 变量 。 

4. 测试 一 切 是 否 正常 工作 。 


日 文中 的 命令 行 有 误 : wget 误 写成 Wget，unzip 误 写成 Unzip ，mysql 误 写成 Mysql， 但 是 Linux 系 统 会 区 分 大 
小 写 。 译 者 注 
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因为 Sqoop 只 有 在 Hadoop 上 才能 工作 ， 所 以 需要 基于 先前 的 Hadoop 安装 来 选择 Sqoop 


的 正确 版 本 。 在 我 们 的 例子 中 ， 使 用 的 是 Sqoop 1.4.2 版 本 ， 它 当前 支持 Hadoop 1.x、0.20、 


0.23 


和 2.0 版 本 。 在 任何 情况 下 ， 在 网 站 http:/www.apache.org/dist/sqoop/1.4.2/ 上 ， 你 都 能 


看 到 与 Hadoop 兼容 的 Sqoop 版 本 。 下 图 显示 了 1.4.2 版 本 的 索引 结构 。 


Index of /dist/sqoop/1.4.2 


心 SGOop-1.4.2.bin_ hadoop-0.20.tar.gz 2012-08-22 19:48 
Sqoop-1.4.2.bin hadoop-0.20.tar.gz.asc 2012-08-22 19:48 
Sq00p-1.4.2.bin hadoop-0.20.tar.gz.mds 2013-07-30 22:11 
心 -1.4.2.bi = 8 2012-08-22 19:48 
[ES 


注意 选择 正确 的 Hadoop 扩展 文件 。 在 我 们 的 例子 中 ， 就 如 同 在 第 1 章 中 看 到 的 那样 ， 


下 载 的 版 本 是 Hadoop 0.23.5。 在 Sqoop Apache 网 址 的 镜像 网 站 上 可 以 获取 Sqoop 的 二 进 制 
版 本 。 可 以 使 用 下 列 命令 得 到 所 需 的 Sqoop。 


们 将 


wget http://www.apache.org/dist/Sqoop/1.4.2/sqoop-1.4.2.bin hadoop-0.23. 
tar.gz 


使 用 下 列 命令 下 载 mysql jdbc 驱动 连接 库 : 


wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector- 
java-5.1.22.tar.gz/from/http://cdn.mysql.com/ 


然后 使 用 下 列 命令 提取 Sqoop: 


tar -xvzf sqoop-1.4.2.bin hadoop-0.23.tar.gz 

我 们 使 用 下 列 命令 来 提取 mysql JDBC 驱动 连接 库 : 

tar -xvzf mysql-connector-java-5.1.22.tar.gz 

现在 是 时 候 配 置 和 测试 Sqoop 了 。 就 像 我 们 之 前 对 Hadoop 和 Mahout 所 做 的 那样 ， 我 
使 用 .bashrc 文件 。 用 你 喜欢 的 任何 文本 编辑 器 打开 .bashrc 文件 并 加 入 下 列 行 到 文件 的 


末尾 : 


export SQOOP HOME=/home/hadoop-mahout/sqoop-1.4.2.bin hadoop-0.23 
export PATH=$PATH: $SQOOP HOME/bin 


关闭 当前 的 终端 再 打开 另 个 一 终端 。 为 测试 我 们 的 Sqoop 安装 ， 输 入 下 列 命令 : 
sqoop /help 


输出 如 下 所 示 : 


hadoop-mahout@hadoop-mahout-laptop:~$ sqoop help 


Warning: /usr/lib/hbase does not exist! HBase imports will fail. 
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Please set $HBASE HOME to the root of your HBase installation. 
usage: sqoop COMMAND [ARGS] 


Available commands: 
codegen Generate code to interact with database records 


create-hive-table Import a table definition into Hive 


eval Evaluate a SQL statement and display the results 
export Export an HDFS directory to a database table 
help List available commands 

import Import a table from a database to HDFS 


import-all-tables Import tables from a database to HDFS 


job Work with saved jobs 

list-databases List available databases on a server 
list-tables List available tables in a database 
merge Merge results of incremental imports 
metastore Run a standalone Sqoop metastore 
version Display version information 


请 参见 Sqoop 的 帮助 命令 来 查看 关于 特殊 命令 的 一 些 信息 。 现 在 已 经 建立 好 了 运行 环 
境 ， 接 下 来 开始 使 用 Sqoop。 


如 何 实现 它 


尽管 读者 会 想 HBASE 是 一 个 Hadoop 分 布 式 数 据 库 ，Sqoop 更 希望 使 用 它 。 但 是 ， 对 于 
使 用 Sqoop，HBase 并 不 是 必要 的 ， 如 果 你 想 更 好 地 理解 HBase 是 如 何 工 作 的 ， 我 们 建议 你 读 
读 《 HBase 管理 员 简 明教 程 》HBase Administration Cookbook，Yifeng Jiang 著 ，Packt 出 版 )。 

不 要 弄 混 淆 了 : Sqoop 并 不 需要 安装 在 导 和 人 数据 Hadoop 节点 机 器 上 。 在 这 个 例子 中 ， 
我 们 从 RDBMS 系统 到 Sqoop ， 再 到 Hadoop UT 但 是 在 真实 的 产品 
环境 下 ，RDBMS 是 另 一 个 生态 系统 (ecosystem)， 仅 仅 通过 IP 地 址 连接 到 Sqoop 安装 的 机 
天上 。 

在 产品 环境 下 ， 你 可 能 需要 分 配 一 个 专门 的 机 器 给 Sqoop 用 于 制作 预定 的 导入 包 。 最 
后 ， dh 安装 Sqoop 之 后 ， 为 能 够 和 我 们 前 面 的 章节 创建 的 mysql 数据 库 一 起 工 
作 ， 我 们 需要 添加 mySQL JAR 包 文 件 。 按 下 列 步 又 来 做 : 

1. 简单 地 拷贝 文件 mysql-connector-java-5.1.22-bin.jar 到 目录 $SSQOOP HOME/lib 下 。 
按照 本 书 的 设置 ， 我 们 简单 地 输入 下 列 命令 : 


cp /home/hadoop-mahout/Downloads/mysql-connector-java-5.1.22/ 
mysql-connector-java-5.1.22-bin.jar $SQOOP HOME/1Lib 


2. 前 述 的 命令 和 下 面 的 命令 是 等 价 的 : 


cp /home/hadoop-mahout/Downloads/mysql-connector-java-5.1.22/ 
mysql-connector-java-5.1.22-bin.jar /home/hadoop-mahout/sqoop- 
1.4.2.bin hadoop-0.20/1Lib 
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现在 是 时 候 测试 导入 并 理解 Sqoop/Hadoop 和 Mahout 如 何 协同 工作 了 。 

我 们 简要 地 回想 一 下 Hadoop 的 整个 架构 ，Hadoop 是 一 个 分 布 式 文件 系统 ， 它 在 节 
点 之 间 共 享 ， 共 同 地 用 作 序 列 文件 和 文本 文件 的 读 写 。 在 前 面 的 一 章 ， 我 们 看 到 当 你 使 用 
MapReduce 作业 时 ， 你 能 够 从 HDFS 中 读 写 文件 。 

Hadoop 有 它 自 己 的 数据 库 HBase， 用 来 存储 并 在 MapReduce 作业 中 共享 数据 ， 但 事实 
上 在 Hadoop 文件 系统 中 没有 什么 是 和 RDBMS 等 价 的 。 有 经 验 的 读者 可 能 会 问 这 样 一 个 问 
题 : 我 如 何 才能 将 数据 (包括 文件 和 RDBMS 数据 ) 移 到 HDFS 中 ? 

在 移动 的 数据 是 文件 的 情况 下 ， 回 答 这 个 问题 相当 容易 。Hadoop 自 带 了 一 系列 的 命令 来 
模拟 Linux 终端 上 出 现 的 基本 命令 。 

比如 ， 当 你 开始 在 HDFS 上 进行 第 一 个 测试 时 ， 比 较 好 的 一 个 方式 就 是 格式 化 所 用 机 器 

节点 上 的 HDFS。 使 用 命令 方式 来 完成 非常 简单 ， 只 需要 打开 一 个 终端 窗口 并 输入 下 面 的 命 
令 即 可 格式 化 : 
hadoop namenode -format 


在 这 个 例子 中 ， 只 有 一 个 单 节点 配置 ， 输出 如 下 所 示 : 


13/01/15 11:08:22 INFO namenode.FSNamesystem: supergroup=supergroup 
13/01/15 11:08:22 INFO namenode.FSNamesystem: isPermissionEnabled=true 


13/01/15 11:08:23 INFO namenode.NameNode: Caching file names occurring 
more than 10 times 

13/01/15 11:08:23 INFO namenode.NNStorage: Storage directory /tmp/hadoop- 
hadoop-mahout/dfs/name has been successfully formatted. 

13/01/15 11:08:24 INFO namenode.FSImage: Saving image file /tmp/hadoop- 
hadoop-mahout/dfs/name/current/fsimage.ckpt 0000000000000000000 using no 
compression 


13/01/15 11:08:24 INFO namenode.FSImage: Image file of size 128 saved in 
0 seconds. 


13/01/15 11:08:24 INFO namenode.NNStorageRetentionManager: Going to 
retain 1 images with txid >= 0 


13/01/15 11:08:24 INFO util.ExitUtil: Exiting with status 0 
13/01/15 11:08:24 INFO namenode.NameNode: SHUTDOWN MSG: 
/天光 风光 淡淡 风灾 内 内 灾 灾 灾 风灾 内 内 灾 灾 灾 淡淡 灾 内 内 内 实 灾 灾 灾 灾 内 内 实 灾 灾 灾 内 内 内 内 内 实 灾 风灾 内 灾 内 内 灾 灾 灾 灾 尖 内 内 灾 灾 


SHUTDOWN MSG: Shutting down NameNode at hadoop-mahout-laptop/127.0.1.1 


关内 内 突 实 灾 灾 灾 灾 灾 内 内 内 淡淡 灾 灾 突 灾 灾 灾 淡 灾 灾 内 灾 内 灾 灾 灾 灾 灾 灾 内 内 灾 灾 灾 灾 实 灾 灾 内 灾 灾 灾 灾 灾 灾 内 央 实 灾 灾 炎 灾 类 央 内 尖 / 


注意 我们 得 提醒 读者 : 我 们 不 赞成 在 Hadoop 0.22 中 使 用 该 功能 。 在 那 种 情况 下 ,使 用 的 
命令 应 该 是 hdfs。 比 如 ，HDFS 的 格式 化 命令 应 该 是 下 面 的 格式 : 5 


hdfs namenode -format 


”前 面 的 例子 中 第 一 个 单词 是 hadoop， 而 这 里 第 一 个 单词 是 hdfs， 其 他 都 一 样 。 一 一 译 者 注 


t 
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HDFS 工具 提供 的 各 种 命令 的 用 法 不 在 本 章 讨 论 的 范围 之 内 。 我 们 建议 那些 想 学 习 更 多 
的 有 关 命 令 用 法 的 读者 参考 官方 的 Hadoop 文档 。 我 们 需要 澄清 的 是 ， 当 你 使 用 Hadoop 的 
MapReduce 做 序列 文件 或 文本 文件 的 读 写 操作 时 ， 所 有 的 这 些 操 作 将 存 人 HDFS 中 。 

让 我 们 开始 我 们 的 第 一 个 导入 操作 。Sqoop 最 初 设计 的 时 候 就 使 用 JDBC 来 连接 数据 库 ， 
所 以 就 有 可 能 把 表 和 查询 转化 为 不 同 的 文件 格式 并 将 它们 存 人 HDFS 中 。 在 这 一 节 中 ， 我 们 
将 会 看 到 如 何 使 用 配置 文件 导入 所 有 的 mysql 表 。 

在 我 们 即将 进行 单个 表 或 SQL 查询 的 导入 操作 之 前 ， 让 我 们 先 试 着 导入 前 面 存储 在 
bbdatabank 数据 库 (MySQL 形式 ) 中 的 所 有 表 。 

做 这 件 事情 的 控制 台 命 令 如 下 所 示 : 


sqoop import-all-tables --connect jdbc:mysql://localhost/bbdatabank 
--user root -P --verbose 


在 上 述 命令 中 最 重要 的 参数 是 : 

--connect jdbc:mysql://localhost/bbdatabank 

上 述 的 命令 主要 指示 Sqoop 在 建立 连接 时 应 用 使 用 哪个 驱动 。 当 触发 sqoop 时 ， 包 含 驱 
动 的 JAR 包 应 该 在 类 路 径 上 。 这 就 是 为 什么 将 所 有 的 JAR 文件 放 在 $SSQOOP_HOME/lib 目 
录 下 是 一 个 好 主意 ， 在 每 次 启动 Sqoop 脚本 时 默认 将 该 目录 加 入 类 路 径 中 。 

连接 属性 的 参数 值 以 JDBC 连接 字符 串 的 形式 被 写 人 。 这 暗示 了 每 个 支持 JDBC 连接 的 
数据 库 都 可 以 被 Sqoop 读 取 。 然 而 ， 有 经 验 的 编程 人 员 应 该 知道 每 个 DBMS 都 有 它 自 己 的 
特性 ， 所 以 任何 新 建 的 连接 都 应 该 被 测试 。 考 虑 到 还 有 其 他 的 参数 ， 在 模拟 mysql 命令 行 
时 ， 我 们 有 : 

口 --user: 它 表 示 了 试 着 建立 连接 的 那个 mysql 用 户 。 

口 -P : 它 是 运行 时 要 求 输入 的 密码 。 使 用 --password 参数 并 在 命令 行 中 指明 该 参数 并 

不 是 一 个 安全 的 做 法 ， 这 是 另外 一 种 可 能 的 做 法 。 

口 --verbose: 它 让 我 们 能 够 使 用 全 日 志 模 式 (full-logging mode)， 我 们 能 看 到 它 的 输出 ， 
并 且 在 任何 情况 下 ， 我 们 都 能 够 控制 产生 的 异 稼 。 

我 们 可 以 把 所 有 的 东西 存储 在 配置 文件 中 ， 然 后 只 需要 传人 配置 文件 的 路 径 来 调用 
Sqoop， 而 不 是 调用 一 长 行 的 参数 。 比 如 ， 上 次 调用 所 用 的 配置 文件 看 起 来 应 该 是 这 样 : 

# 


# Options file for Sqoop 
# 


# Specifies the tool being invoked 


import-all-tables 


# Connect parameter and value 
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--connect 


jdbc:mysql://localhost/bbdatabank 


# Username parameter and value 
--username 

root 

-PP 


--verbose 


本 


通过 传人 配置 文件 来 调用 它 应 该 是 下 面 这 样 : 


sqoop -options-file <path to file> 


我 们 导入 的 最 终结 果 在 HDFS 文件 系统 中 可 以 使 用 下 列 命令 浏览 : 


hadoop fs -ls 


使 用 上 面 命令 将 显示 下 列 文 件 的 结果 : 


Found 25 items 


-IWw-rw-rw- 1 hadoop-mahout hadoop 601404 2013-01-15 14:33 TEAMS 
-rw-rw-rw- 1 hadoop-mahout hadoop 601404 2013-01-15 14:33 
ALLSTARFULL 

-IrIWw-rw-rw- 1 hadoop-mahout hadoop 601404 2013-01-15 14:33 
APPEARANCES 

-rw-rw-rw- 1 hadoop-mahout hadoop 601404 2013-01-15 14:33 
AWARDSMANAGERS 

-rwWw-rw-rw- 1 hadoop-mahout hadoop 601404 2013-01-15 14:33 
AWARDSPLAYERS 

-rw-rw-rw- 1 hadoop-mahout hadoop 601404 2013-01-15 14:33 


针对 这 个 例子 ， 我 们 打开 TEAMS 文件 ， 使 用 的 命令 如 下 : 


hadoop -fs tail TEAMS 


结果 如 下 : 


,1,767,668,4.24,1,14,40,4310,1409,154,605,1268,144,135,0.980,"Chicago 
Cubs", "Wrigley Field",\N,108,108,"CHC", "CHN", "CHN" 


2010, "NL", "CIN", "CIN", "C",1,162,\N,91,71,"Y","N","N", 
"N",790,5579,1515,293,30,188,522,1218,93,43,68,50,685,648,4.02,4,9,43, 
4359,1404,158,524,1130,86,140,0.988,"Cincinnati Reds","Great American 
Ball Park",\N,99,99,"CIN", "CIN", "CIN" 


该 格式 是 CSV 格式 (属性 值 以 逗号 隔 开 )。 


它 是 如 何 工 作 的 


在 verbose 模式 下 ,来 自 标准 和 输出 的 导入 步骤 是 非常 简单 的 。 每 当 你 执行 时 入 操作 时 


(导入 所 有 的 任务 或 单个 导入 )，Sqoop 都 使 用 类 路 径 中 指明 的 driver 类 来 连接 数据 库 。 


我 们 为 什么 把 它 放 在 $SSQOOP_ HOME/lib 目录 下 ， 所 有 的 JAR 文件 都 会 被 自动 地 加 载 。 


这 是 


根 
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据 import 参数 ，Sqoop 将 在 关系 数据 库 和 目标 地 址 之 间 生 成 一 些 映射 类 ， 最 后 使 用 该 映射 将 
结果 转换 为 最 终 所 要 求 的 格式 。 


更 多 


在 这 个 例子 中 ， 我 们 使 用 一 个 非常 简单 的 方法 只 是 想 让 读者 了 解 Hadoop 环境 下 
Sqoop 的 重要 性 。 但 是 更 高 级 别 的 数据 分 析 方 法 只 会 导入 必要 的 数据 来 供 Mahout 分 析 
使 用 。 

Sqoop 也 提供 了 基于 SQL 语句 导入 数据 的 可 能 性 。 我 们 将 执行 下 面 两 个 操作 来 测试 它 : 

口 创建 Sqoop 配置 文件 。 

口 使 用 免费 的 SQL 语句 来 运行 Sqoop 导入 操作 。 

我 们 利用 这 项 技术 让 读者 能 够 在 相同 数据 库 上 测试 不 同 的 查询 ， 但 又 不 必 重 复 输入 它 
打开 文本 编辑 器 ， 为 Sqoop 创建 下 列 连 接 属 性 文件 : 

# 


# Options file for Sqoop 
# 


们 


O 


# Specifies the tool being invoked 


import 


# Connect parameter and value 
--Connect 


jdbc:mysql://localhost/bbdatabank 


# Username parameter and value 

oe 

-P 

--verbose 

将 文件 存 为 sqoop.config 并 把 它 放 在 SQOOP HOME 下 (在 我 们 的 例子 中 ， 它 对 应 / 
home/hadoop-mahout/sqoop-1.4.2.bin hadoop-0.20 )。 

你 可 能 会 注意 到 ， 相 对 于 以 前 的 配置 ， 一 个 重要 的 变化 是 我 们 指定 了 import 命令 ， 于 是 
我 们 不 用 导入 每 个 表 ， 而 是 仅仅 导入 包含 数据 的 一 个 子 集 。 这 与 调用 sqoop import 命令 行 尼 
方式 等 价 。 运 行 MySQL 语句 显示 如 下 图 所 示 : 


< 
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OO queryscoop (/mnt/new/test/sqoop-1.4.4.bin hadoop-0.23/bin) - gedil 
File Edit View Search Tools Documents Help 
I Pn " / 吧 save 六 仿 Undo QQ Ge 
| jqueryscoop 凌 
SELECT 
BattingPost.yearID， 
BattingPost .teamID ， 
BattingPost.LgID， 
BattingPost. round, 
BattingPost .playerID 
FROM 
BattingPost LEFT JOIN SeriesPost 
ON seriesPost.yearID=BattingPost.yearID AND 
seriesPost. round=BattingPost.round AND 
(teamIDwinner=teamID OR teamIDloser=teamID) AND 
(lgIDwinner=lgID OR LgIDLoser=LgID) 
WHERE 
BeriesPost. round IS NULL 
这 条 语句 返回 BattingPost 中 的 所 有 的 队员 ， 这 些 队员 出 现在 SeriesPost 所 表示 的 球 队 
中 。 把 我 们 已 经 有 的 这 两 部 分 放 在 一 块 并 将 查询 的 结果 以 CSV 文件 的 形式 导入 HDFS 中 ， 
我 们 调用 下 列 命令 : 
sqoop --options-file /home/hadoop-mahout/sqoop-1.4.2.bin hadoop-0.20/ 
sqoop.config -query 'SELECT BattingPost.yearID, BattingPost.teamID, 
BattingPost.1lgID, BattingPost.round, BattingPost.playerID FROM 
BattingPost LEFT JOIN SeriesPost ON SeriesPost.yearID=BattingPost. 
YearID AND SeriesPost.round=BattingPost.round AND (teamIDwinner=teamID 
OR teamIDloser=teamID) AND (lgIDwinner=lgID OR lgIDloser=1lgID) WHERE 
SeriesPost.round IS NULL' 
输出 将 是 一 系列 的 普通 的 CSV 文本 文件 ， 它 们 存储 在 HDFS 文件 系统 中 并 可 以 供 其 他 
的 MapReduce 作业 使 用 。 


我 们 建议 读者 参考 sqoop.apache.org 上 由 Sqoop 提供 的 一 些 好 的 文档 。 在 实际 导入 的 过 


程 中 ， 我 们 还 将 指出 其 他 一 些 对 你 有 用 的 命令 行 参数 ， 我 们 把 这 些 参数 列 在 这 里 


DQ --as-sequencefile 


口 -m 和 --num-mappers 


口 --target-dir 
我 们 来 一 个 个 地 讨论 ， 


来 自 查 询 的 --as-sequencefile 参数 强制 文件 以 Hadoop 序列 文件 键 / 


值 对 的 格式 存储 。 在 这 种 情况 下 ， 虽 然 所 有 的 结果 集 都 是 键 所 对 应 的 值 ， 但 是 用 于 Hadoop 
计算 的 键 值 必须 是 唯一 的 并 且 会 自动 地 生成 。 


Sqoop 使 用 MapReduce 算法 提供 的 并 


你 可 以 使 用 更 多 的 mapper。 注 意 


行 化 方式 来 从 RDBMS 导入 数据 。 默 认 情 况 下 ， 如 


果 不 指 定 参数 ，4 个 mapper 都 用 来 查询 RDBMS 。 但 是 在 应 对 包含 上 百 万 条 记录 的 大 型 数据 
库 时 ， 


， 你 可 以 任意 地 设置 这 个 参数 ， 因 为 每 个 mapper 都 


会 打开 一 个 专用 的 RDBMS 连接 。 比 如 ， 如 果 你 指定 100 作为 并 行 mapper 的 参数 ， 那 么 你 
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打开 连接 的 数目 将 增加 到 100 个 ， 这 将 会 对 其 他 的 已 经 连接 的 会 话 (connected session) 引起 
某 些 性 能 方面 的 问题 。 

所 以 当 你 运行 并 行 任务 时 ，Sqoop mapper 应 该 能 够 识别 出 某 个 列 ， 它 可 以 用 于 划分 被 导 
入 的 数据 。 比 如 ， 如 果 你 决定 导入 一 个 包含 100 万 记录 的 表 ( ee 并 使 用 四 个 mapper 
来 做 这 件 事 情 ，Sqoop 需要 唯一 地 确定 如 何 将 250 000 条 记录 分 配给 每 个 mapper。 默 认 情 况 
下 ，Sqoop 将 识别 主键 列 来 做 这 件 事 情 。 然 而 ， 在 普通 的 SQL 语句 中 ， 可 能 不 存在 主键 列 ， 
所 以 我 们 需要 使 用 --split-by 参数 来 指定 要 使 用 哪 一 列 ， 该 列 将 用 于 在 不 同 的 mapper 之 间 划 
es 

过 最 后 一 个 参数 ， 我 们 观察 到 HDFS 是 在 模拟 Linux 目录 结构 ; 所 以 在 大 部 分 时 间 里 
你 Be 一 个 工作 用 的 导入 目录 。 在 这 种 情况 下 ， 你 可 以 使 用 -target-dir 参数 ， 它 让 你 能 够 指 
定 HDFS 中 的 目录 ， 你 需要 将 导入 的 结果 文件 放 在 该 目录 下 。 
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如 同 我 们 在 前 言 中 谈 到 的 那样 ， 我 们 将 一 个 Hadoop/Mahout 的 挖掘 过 程 分 为 三 个 主要 的 
步 又: 

口 将 提取 的 数据 导入 HDFS 实例 中 。 

口 在 Hadoop/Mahout 上 进行 计算 任务 。 

口 将 结果 导出 到 另 一 个 RDBMS 中 ， 某 个 第 三 方 软件 将 负责 显示 它 。 

现在 我 们 已 经 看 到 了 导入 部 分 ， 我 们 需要 提供 导出 的 一 些 例子 。 按 照 命令 行 的 风格 ， 我 
们 将 使 用 export 参数 来 调用 Scoop 主 脚本 。 

我 们 不 需要 任何 其 他 的 配置 ， 我 们 前 面 设 置 的 所 有 东西 对 于 导出 目的 仍然 是 有 效 的。 


如 何 实 现 它 


让 我 们 从 一 个 基本 的 例子 开始 。 想 象 一 下 ， 在 我 们 的 HDFS 里 面 有 一 个 CSV 文件 叫 
export.csv， 它 位 于 /export 目录 下 。 我 们 想 把 这 个 文件 保存 在 一 个 叫 results 的 MySQL 数据 
表 中 。 

使 用 下 面 的 命令 可 以 完成 它 : 


sqoop export --connect jdbc:mysql://localhost/bbdatabank --user root -P 
--Vverbose --export-dir /export/ --table results 


从 上 面 的 命令 可 以 看 出 ， 一 旦 设 定 参数 来 做 这 个 工作 ， 在 export 命令 中 ， 我们 让 这 些 可 
选 参数 简单 地 首尾 相连 即 可 。 但 是 作为 我 们 的 第 一 个 例子 ， 我 们 需要 给 读者 一 些 说 明 。 
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它 是 如 何 工 作 的 


因为 目标 文件 是 RDBMS 表 ， 我 们 提醒 读者 目标 表 必 须 在 目标 数据 库 


P 存 在 。Sqoop 并 不 


能 自行 地 创建 目标 表 。 如 果 没 有 其 他 的 指定 ，Sqoop 将 创建 一 个 INSERT INTO sql 语句 的 集合 ， 
这 些 语句 将 在 目标 表 上 执行 。 当 运行 Sqoop 的 export 命令 时 ， 需要 强制 指定 的 参数 有 : 


DQ --export-dir 
口 --table 


如 有 果 你 先前 有 通过 Java 和 JDBC 使 用 SQL 语句 的 经 验 ， 你 一 定 会 意识 到 在 一 个 普通 表 上 


执行 insert 语句 会 有 一 些 潜在 的 问题 产生 。 我 们 总 结 一 下 这 些 潜在 的 问题 ， 
口 两 次 插入 同一 个 值 导致 的 重复 插入 问题 。 
口 插入 一 个 空 值 到 必需 的 或 非 空 值 域 列 。 
作为 应 对 ，Sqoop 提供 了 更 多 的 容易 调整 的 参数 来 避免 这 样 的 问题 。 
验 一 下 。 


回 到 我 们 谈论 的 潜在 问题 ， 让 我 们 看 看 如 何 管理 重复 的 insert 语句。 轩 


把 它们 列 在 这 里 : 


让 我 们 来 分 别 地 检 


耻 认 情况 下 ，Sqoop 


仅仅 执行 一 个 insert 语句 ， 所 以 万 一 有 两 个 源 文 件 包 含 相同 的 记录 ， 它 将 创建 一 个 包含 重复 
键 的 insert 语句 ， 所 以 为 了 避免 潜在 的 运行 期 异常 ， 你 可 以 使 用 --update-key 参数 。 该 参数 


让 你 定义 你 目标 表 上 的 主键 列 ， 它 可 以 用 来 进行 更 新 而 不 能 创建 插入 。 
举 个 例子 ， 我们 有 一 个 CSV 源 文件 ， 它 的 行 结构 如 下 : 
Id, movie, score 


于 
1;10 


我 们 使 用 mysql 命令 创建 表 ， 其 结果 如 下 : 


Create table results 


( 
Id int primary key not null 


movie int not null 
Score float not null 


) 


如 果 每 件 事情 都 可 以 顺利 进行 ， 应 该 不 会 有 任何 问题 ， 但 是 万 一 再 有 一 个 ID 为 1 的 记 
录 ， 你 的 导出 可 能 会 产生 重复 键 异 常 。 你 有 两 种 可 能 的 解决 方法 。 第 一 种 是 使 用 --update- 


key 参数 并 执行 下 列 的 Sqoop 命令 : 


sqoop export --connect jdbc:mysql://localhost/bbdatabank --user root -P 


--verbose --export-dir /export/ --table results --update-key id 


当做 插入 操作 时 ， 上 述 命 令 强 制 Sqoop 产生 一 个 类 似 于 下 面 的 SQL 命 


六 令 : 


update result set movie=<movie value>, score=<score Value> where id = .. 
如 果 ID 号 没有 在 目标 表 中 出 现 ， 即 使 在 你 第 一 次 导入 ID 或 者 添加 一 个 新 ID ( 相 比 前 一 
个 ) 时 没有 出 现 错误 ， 这 还 是 没有 完全 解决 问题 。 为 正确 地 构建 一 个 工作 流 ， 你 应 该 首先 导 
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出 数据 去 填充 表 ， 再 导出 另 一 个 带 更 新 刍 的 数据 来 避免 重复 键 异常。 
在 这 种 环境 下 ， 管 理 插入 和 更 新 语句 的 最 有 用 的 参数 可 能 就 是 带 --update-key 的 --update- 
mode 了 。 为 了 澄清 这 件 事 件 ， 让 我 们 考虑 下 面 的 Sqoop export 命令 : 
sqoop export --connect jdbc:mysql://localhost/bbdatabank --user root -P 
--verbose --export-dir /export/ --table results --update-key id -update- 
mode allowinsert 
在 这 种 情况 下 ， 通 过 指定 allowinsert 模式 ， 导 入 流 将 遵循 下 列 逻 辑 ; 
口 检查 更 新 键 参数 的 值 是 否 在 目标 表 中 存在 。 
口 如 果 是 的 话 ， 创 建 并 使 用 更 新 命令 来 更 新 信息 。 
口 否则 创建 一 个 insert 语句 。 
这 将 会 避免 所 有 潜在 的 情况 ,但 是 记 住 一 旦 你 开始 使 用 更 新 语句 ， 仪 仅 最 后 一 次 更 新 将 
得 到 最 终 的 值 。 
当 处 理 insert 和 update 时 ， 需 要 仔细 考虑 数据 表 上 更 新 的 域 值 。 比 如 ， 如 果 你 允许 目标 
表 中 的 string 域 接受 一 个 空 值 ， 那 么 你 不 得 不 在 对 应 的 数据 源 中 管理 空 字符 串 。Sqoop export 
命令 另外 提供 了 一 些 参 数 来 管理 输入 的 分 隔 符 和 空 值 ， 再 一 次 提醒 读者 参考 Sqoop 网 站 上 的 
完整 文档 。 我 们 仅仅 引用 其 中 会 用 到 的 两 个 参数 : 
口 --input-fields-terminated-by : 如 果 指 定 该 参数 ， 它 将 说 明 输 入 文件 中 哪个 字符 用 作 域 
分 隔 符 ， 默 认 情 况 下 是 逗号 。 
口 --input-lines-terminated-by: 该 参数 指定 行 分 隔 符 ， 默 认 值 是 \r。 
考虑 到 空 值 ， 我 们 有 : 
口 --input-null-string : 如 果 指 定 该 参数 ， 它 将 向 导出 工具 指明 哪个 字符 串 将 被 认为 是 空 
值 。 注 意 ， 默 认 情 况 下 ，null 被 解释 为 空 字 符 串 。 
口 --input-null-non-string : 如 果 该 参数 没有 指明 (默认 情况 下 )， 在 SQL 语句 中 ， 空 字 
符 串 和 空 值 都 会 被 认为 是 null。 
现在 我 们 已 经 看 到 两 种 数据 流 ， 导 入 流 和 导出 流 ， 我 们 下 面 将 看 一 下 Sqoop 作业 和 
Sqoop 的 API。 
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现在 你 已 经 看 到 导入 /导出 工具 ( 称 为 Sqoop) 是 如 何 工作 的 ， 我 们 准备 谈论 一 下 创 
建 Sqoop 作业 的 事情 。 从 一 个 开发 者 甚至 维护 者 的 角度 来 看 ， 一 旦 你 正确 地 创建 了 Sqoop 
语句 ， 你 需要 通过 命令 行 来 触发 它 。 当 你 需要 从 已 经 改变 的 输入 源 来 更 新 目标 数据 的 时 候 ， 
Sqoop 作业 就 特别 有 用 。 一 般 地 ， 你 需要 启动 一 个 调度 作业 ， 它 要 运行 一 晚上 来 提取 存储 在 数 
据 源 中 不 同 于 前 一 天 的 新 信息 。 一 旦 通过 测试 ,计划 任务 调度 程序 就 可 以 容易 地 调用 命令 行 。 
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如 何 实 现 它 


Sqoop 提供 了 命令 行 参数 ， 人 允许 我 们 创建 一 个 配置 好 的 作业 。 每 次 触发 它 的 时 候 ， 


没有 给 定 命令 行 参 数 ， 它 就 会 执行 导入 /导出 工具 。 
从 叙述 方式 转移 到 编码 方式 ， 让 我 们 创建 我 们 的 第 一 个 导入 Sqoop 作业 。 
1. 我 们 将 看 到 第 一 个 导入 如 下 : 


sqoop import-all-tables --connect jdbc:mysql://localhost/ 
bbdatabank --user root -P --verbose 


2. 为 创建 一 个 作业 做 相同 的 事情 ， 我 们 在 我 们 的 平台 上 输入 下 列 命令 : 


sqoop job --create myimportjob  -- import-all-tables --connect 
jdbc:mysql://localhost/bbdatabank --user root -P --verbose 


它 是 如 何 工 作 的 


如 果 


我 们 看 到 命令 创建 了 一 个 名 为 myimportjob 的 作业 。 该 作业 存储 在 元 存储 (metastore ) 
库 中 ， 它 是 文件 系统 中 的 一 个 位 置 ， 默 认 情 况 下 ， 它 位 于 $SQOOP_HOME/sqoop 目录 下 。 


更 多 


一 旦 你 创建 了 一 个 作业 ， 可 以 给 出 exec 参 数 来 执行 该 作业 ， 下 列 命令 执行 了 


myimportjob 命令 : 
sqoop job --exec myimportjob 
为 了 显示 保存 的 作业 ， 你 可 以 使 用 下 列 命令 : 
sqoop job --1list 
为 显示 myimport 作业 的 配置 ， 使 用 的 命令 像 下 面 这 样 : 
sqoop job --show myjob 
最 后 ， 删 除 保存 的 作业 ， 使 用 下 列 命令 : 


sqoop job --delete myjob 


一 旦 你 创建 了 你 的 作业 ， 你 可 以 使 用 这 种 方式 来 管理 它 。 万 一 你 想 在 产品 的 环境 下 执行 


一 个 调度 作业 ， 你 可 以 使 用 cron 工具 来 调度 一 个 作业 的 执行 。 


我 们 想 提 醒 读 者 ， 除 了 命令 行 工具 之 外 ， 默 认 情况 下 ， 作 业 将 存储 在 Sqoop 库 中 。 当 作业 
运行 时 ， 该 库 并 不 保存 所 需 的 密码 。 所 以 如 果 你 要 创建 一 个 需要 密码 才能 保存 的 作业 ， 在 作业 执 
行 的 过 程 中 ， 你 将 被 要 求 输入 密码 。 考 虑 一 个 调度 作业 ， 你 应 该 通过 修改 配置 文件 来 强制 Sqoop 


存储 密码 。 因 为 Sqoop 元 存储 并 不 是 最 安全 的 一 种 存储 ， 所 以 这 也 不 是 一 种 安全 的 行为 。 但 是 


你 可 以 通过 打开 sqoop-site.xml 文件 来 修改 这 个 设置 你 仅仅 需要 取消 关于 下 面 的 标签 的 注释 : 


<DIropertys 


<name>sqoop.metastore.client.record.password</name> 
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<value>true</value> 
<description>If true, allow saved passwords in the metastore. 
</description> 


</property> 
考虑 到 Sqoop 主要 是 通过 命令 行 工 具 提 供 某 些 JAR 文件 的 接口 ， 
Java 应 用 程序 中 。 我 们 将 在 下 一 个 秘笈 中 看 到 如 何 将 Sqoop 租 入 Java 代 


秘 答 10 ”使 用 Sqoop API 导入 数据 


因此 它 能 够 被 能 和 人 
码 中 。 


Sqoop 提供 一 系列 API， 通 过 它们 可 以 从 Java 代码 中 启动 Sqoop MapReduce 导入 / 
导出 作业 。 和 平常 一 样 ， 我 们 将 在 NetBeans 开发 环境 中 使 用 Maven 连接 正确 的 JAR 包 。 


和 我 们 先前 在 第 1 章 和 第 2 章 中 所 做 的 一 样 ， 打 开 NetBeans 并 新 弹 


一 个 叫 chapter 3 的 


Maven 工程 。 然 后 我 们 使 用 Maven 连接 Sqoop 包 依 赖 ， 右 击 Dependencies 文件 夹 并 单 击 
Add Dependency 项 目 。 在 显示 的 对 话 框 上 ， 填 好 详细 资料 显示 如 下 图 所 示 。 


Seorch open Projects. Dependency Management 


ana 


(coordinate, class name, project name...) 


Mome=b nN- 


然后 单 击 Add， 你 将 会 在 你 的 Dependencies 文件 夹 图 标 上 看 到 JAR 文件 ， 如 下 图 所 示 。 
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Recent Projec 


如 何 实现 它 


现在 我 们 已 经 配置 了 我 们 的 Maven 工程 ， 是 时 候 写 几 行 代码 看 看 不 用 命令 行 工 具 如 何 使 
用 Sqoop。 
我 们 把 我 们 的 代码 加 入 到 默认 的 App.java 类 中 。 双 击 它 并 在 main 方法 中 加 入 下 列 代 码 : 


SqoopOptions o = new SqoopOptions(); 
oOo.setConnectSstring (null); 
oOo.setExportDir("/tmp/piero"); 


String[] arguments = new String[10]; 
ImportAllTablesTool t = new ImportAllTablesTool () ; 
主 镁 蕊 ， 秆 字 


r = Sqoop.runTool (arguments); 


它 是 如 何 工 作 的 


如 你 所 见 ， 我 们 创建 了 一 个 SqoopOptions 对 象 ， 它 对 应 到 命令 行 工具 中 所 包含 的 相同 参 
数 。 然 后 ， 我 们 创建 了 我 们 所 要 运行 的 作业 类 型 的 实例 。 可 能 的 作业 类 型 如 下 : 

口 InportAllTablesTool 

DQ ImportTool 

DQ ExportTool 

最 后 一 步 是 为 每 个 可 能 的 作业 对 象 使 用 runTool 方 法。 如 果 成 功 地 完成 作业 ， 那 么 结果 
将 存 和 一 个 int 类 型 供 编程 人 员 解 读 。 

我 们 仅 提 供 了 一 个 关于 如 何 使 用 Sqoop API 的 简单 方法 。 为 了 理解 一 个 简单 但 有 效 的 方 
法 是 如 何 运行 的 ， 请 下 载 源 代码 看 看 它 如 何 和 命令 行 交 互 。 

如 果 你 打开 了 一 个 文本 编辑 器 ， 你 应 该 会 看 到 最 后 一 行 的 调用 exec 命令 ， 如 下 所 示 : 

exec ${HADOOP HOME}/bin/hadoop com.cloudera.sqoop.Sqoop "$@" 

因此 ， 每 个 Sqoop 命令 的 入 口 点 都 在 com.cloudera.sqoop 包 的 主 类 Sqoop 中 。 我 们 建议 
读者 读 读本 书 的 代码 ， 以 对 场景 背后 发 生 的 事情 有 一 个 更 深 的 理解 。 
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